Introdução à base de conhecimento
A base de conhecimento é a base de dados para as respostas de saída do corpo inteligente e é adequada para desenvolvedores com acumulação de dados profissionais, bem como para aqueles que têm requisitos de precisão e profissionalismo para os resultados de saída.
Carregue seus próprios dados no módulo da base de conhecimento, no grande modelo e no processo de interação com o usuário, de acordo com o conteúdo semelhante recuperado da base de conhecimento, o grande modelo tocado para gerar os resultados, o que pode limitar efetivamente o escopo da geração de modelos.
A Wenxin Intelligent Body Platform respeita e protege totalmente a segurança de seus dados proprietários e não usará os dados enviados para treinar ou aprimorar modelos grandes de uso geral, e não abriu recursos de treinamento de modelos proprietários por enquanto.
1. cenário de uso
- Desenvolvimento de código zero de inteligências com referências a bases de conhecimento e recuperação limitada;
- Citando a base de conhecimento ao desenvolver inteligências em código baixo;
- Cite a base de conhecimento e desenvolva plug-ins de dados rapidamente.
2. portal da base de conhecimento
Entrada 1: Após fazer login na plataforma, clique na navegação à esquerda para acessar o módulo da Base de Conhecimento.
Entrada 2: Para desenvolver inteligências de código zero, na página Criar inteligência, clique em "Nova base de conhecimento" para adicionar dados;
Entrada 3: desenvolvimento de inteligências de baixo código, na página de arranjo visual, arraste e solte o kit da base de conhecimento, clique em "New Knowledge Base" para entrar no módulo da base de conhecimento;
Entrada 4: Para desenvolver um plug-in de dados, na página Editar plug-in, clique em "Nova base de conhecimento" para acessar o módulo Base de conhecimento.
3. criação da base de conhecimento
Etapa 1: Faça o upload dos dados.
Há três maneiras de fazer upload dos dados da base de conhecimento: ①upload de arquivos locais, ②submit web address, ③Baidu.com.hk import. Uma conta pode criar 100 bases de conhecimento, a capacidade total de todas as bases de conhecimento não pode ser superior a 1G, uma base de conhecimento pode ser adicionada a 100 arquivos ou URLs e a capacidade total não pode exceder 200M.
①Arquivos locais
- Atualmente, somente os tipos de texto e imagem são compatíveis, incluindo txt, md, docx, pdf, xlsx, csv, png, jpg, jpeg, m4a, mp3, mp4, mov, mpeg.Somente o upload de vídeo é suportado, o reconhecimento de conteúdo de vídeo não é suportado por enquanto.
tipo de dados | apelido | Instruções de upload |
---|---|---|
cópias | texto | Tamanho do arquivo não superior a 50 milhões |
md | Tamanho do arquivo não superior a 50 milhões | |
docx | Tamanho do arquivo não superior a 50 milhões | |
Por enquanto, não há suporte para gráficos; as imagens no arquivo serão filtradas e somente o texto será mantido | ||
Tamanho do arquivo não superior a 50 milhões | ||
Por enquanto, não há suporte para gráficos; as imagens no arquivo serão filtradas e somente o texto será mantido | ||
Há suporte para a digitalização de documentos de até 50 páginas. | ||
xlsx | Tamanho do arquivo não superior a 50 milhões | |
Recomenda-se fazer upload de arquivos de dados no formato xlsx. Observe que, para garantir que o modelo possa entender o significado dos dados depois que o arquivo no formato xlsx for dividido, de modo que possa realizar consultas e estatísticas de dados mais precisas, o xlsx carregado deve conter cabeçalhos de tabela. | ||
csv | Tamanho do arquivo não superior a 50 milhões | |
fotografia | png | 30px ≤ comprimento lateral ≤ 4096px, na proporção 3:1, o tamanho não pode exceder 20M. |
É possível fazer upload de até 500 imagens para uma base de conhecimento | ||
Resultados de reconhecimento mais precisos quando itens físicos são incluídos na imagem | ||
jpg | 30px ≤ comprimento lateral ≤ 4096px, na proporção 3:1, o tamanho não pode exceder 20M. | |
É possível fazer upload de até 500 imagens para um conjunto de bases de conhecimento | ||
Resultados de reconhecimento mais precisos quando itens físicos são incluídos na imagem | ||
jpeg | 30px ≤ comprimento lateral ≤ 4096px, na proporção 3:1, o tamanho não pode exceder 20M. | |
É possível fazer upload de até 500 imagens para uma base de conhecimento | ||
Resultados de reconhecimento mais precisos quando itens físicos são incluídos na imagem | ||
frequência sonora | m4a | Tamanho do arquivo não superior a 50 milhões |
Converte áudio em texto por meio de reconhecimento inteligente | ||
mp3 | Tamanho do arquivo não superior a 50 milhões | |
Converte áudio em texto por meio de reconhecimento inteligente | ||
vídeo | mp4 | Tamanho do arquivo não superior a 200M |
Converte vídeo em texto por meio de reconhecimento inteligente | ||
mover | Tamanho do arquivo não superior a 200M | |
Converte vídeo em texto por meio de reconhecimento inteligente | ||
mpeg | Tamanho do arquivo não superior a 200M | |
Converte vídeo em texto por meio de reconhecimento inteligente |
②Envio de site
- Depois de digitar o endereço da página da Web, clique no botão "Identify" (Identificar) para identificar os dados de texto na página da Web; ele só é compatível com a identificação do endereço da página da Web que é acessível publicamente e foi indexado pelo Baidu; se você precisar fazer login e acessá-lo ou não estiver autorizado a ser indexado pelo Baidu, ele não conseguirá identificar o endereço da página da Web.
- Você pode definir a frequência de atualização da base de conhecimento por reconhecimento automático de acordo com a frequência de atualizações da página da Web.
③Importação do Baidu.com
- Pela primeira vez, você precisa autorizar os dados da conta Baidu.com e pode selecionar os arquivos no netbook após a autorização bem-sucedida.
- O limite de tempo para a importação do netbook é limitado pela velocidade de download dos arquivos do netbook; se o tempo for longo, você poderá escolher o processamento em segundo plano.
Etapa 2: Processamento de dados.
Como o big model tem limitações rígidas de caracteres de entrada e saída nesse estágio, e a base de conhecimento também é um tipo de conteúdo de entrada, que também precisa seguir as limitações do número de caracteres de entrada do big model, o objetivo da segmentação de texto é cortar o texto longo em parágrafos curtos, eliminar informações irrelevantes e inserir o conteúdo mais relevante sob a premissa de garantir que os caracteres de entrada não excedam o limite. Para permitir que o modelo grande compreenda o conteúdo da imagem com mais precisão, ele chamará o modelo para anotar o conteúdo da imagem de forma inteligente primeiro. Atualmente, 2 a 3 parágrafos da base de conhecimento podem ser inseridos no big model, e o conteúdo relevante deve ser dividido em 3 parágrafos ou menos, na medida do possível.
- Segmentação de texto: A plataforma oferece "segmentação padrão" e "segmentação personalizada", o que permite que os desenvolvedores cortem textos longos em vários segmentos de conteúdo de texto por meio de texto, pontuação, espaço, retorno de carro etc., para que o modelo possa entender com mais precisão o conteúdo do texto. Quando a segmentação é processada, os caracteres máximos de segmentação têm a garantia de serem cortados de acordo com o método de segmentação definido.
Romances, atendimento ao cliente e outros cenários de conteúdo de perguntas e respostas, dados e outros conteúdos, como configurar segmentos veja como configurar segmentos de arquivos (com exemplos)
- Configuração de formulário: O cabeçalho da tabela do arquivo de formulário será usado como a principal informação para que o big model compreenda o conteúdo da tabela. Por padrão, a primeira linha da tabela será definida como o cabeçalho, que pode ser rotulado de forma personalizada de acordo com a estrutura real da tabela.
- Configurações de multimídia: A chamada padrão para o grande modelo da imagem, o conteúdo de áudio para reconhecimento inteligente e a geração de anotação de texto, auxiliando a recuperação do link para a imagem, a compreensão do áudio, bem como a recuperação mais precisa da recordação. Se as informações de anotação geradas estiverem erradas, você poderá modificar manualmente o conteúdo incorreto.Fique atento aos recursos de reconhecimento de vídeo que serão lançados em breve!
4. uso da base de conhecimento
Maneira 1: desenvolvimento de código zero de inteligências, na página Criar corpo de inteligência, selecione Base de conhecimento. Você pode observar a chamada da base de conhecimento e otimizar o efeito de recuperação da base de conhecimento depurando os parâmetros de recuperação. Para obter mais detalhes, consulte: Controle de qualidade comum da chamada da base de conhecimento
Maneira 2: desenvolvimento de inteligências com pouco código, na página de orquestração visual, arraste e solte o conjunto de bases de conhecimento para selecionar a base de conhecimento que foi criada.
Caminho 3: Desenvolva um plug-in de dados e selecione a base de conhecimento que foi criada.
Como configurar a segmentação de documentos (com exemplos)
1) Quando é necessário alterar um segmento de documento?
- Dados estruturados
- A saída do Smartbody ou do plug-in resulta em acessos bem-sucedidos à base de conhecimento, mas contém muitas informações irrelevantes
2. como configurar a segmentação de arquivos
O objetivo do processamento de segmentação de dados é cortar um texto longo em parágrafos curtos, eliminando o máximo possível de informações irrelevantes do conteúdo recuperado, para que ele possa ser processado e compreendido com mais eficiência pelo modelo.
A Wenxin Intelligent Body Platform oferece segmentação padrão e segmentação personalizada. Para diferentes tipos de documentos, é necessário alternar entre diferentes configurações de segmentação.
- Maximum Segment Characters (Máximo de caracteres do segmento): o número máximo de caracteres em um parágrafo após o corte de um texto longo, em vez do número de caracteres em cada parágrafo, você pode preencher qualquer número de 50 a 512;
- Caracteres de sobreposição de parágrafo: o número máximo de caracteres repetíveis no início de cada segmento e no final do segmento anterior; você pode inserir qualquer número de 0 a 500; observe que o número de caracteres sobrepostos precisa ser menor do que o número máximo de caracteres de parágrafo, para manter a semântica original dos segmentos cortados o máximo possível, evitar a expressão incompleta devido à segmentação e ajudar o modelo a entender de forma mais precisa e completa;
- Modo de segmentação: símbolos de segmentação para corte de texto longo, você pode escolher os símbolos de segmentação comumente usados ou inserir quaisquer símbolos; ao cortar o texto, a posição de corte será selecionada de acordo com a classificação dos símbolos de segmentação.
Observação: O número de segmentos de uma única base de conhecimento não pode exceder 700w; defina os segmentos de forma razoável.
3. casos segmentados
Caso 1: O caso da segmentação de conteúdo de texto longo
Escopo de aplicação: os casos são aplicáveis a romances, e-books, textos, apresentações de empresas, teses, documentos de patentes, etc., que exigem que o modelo compreenda a semântica no contexto do conteúdo do texto longo.
Exemplo de arquivo:O homem de terno.docx
Pensamentos segmentados:
Segmentação padrão recomendadaOs resultados específicos da segmentação podem ser visualizados fazendo o download do arquivo de exemplo e criando uma base de conhecimento.
- Máximo de caracteres de parágrafo: parágrafos de conteúdo de texto longo geralmente são mais longos, e há algumas relações entre parágrafos e parágrafos, portanto, o máximo de caracteres de parágrafo pode ser definido um pouco maior, para tentar garantir que o parágrafo contenha uma semântica completa, e que o modelo possa ser entendido de forma melhor e mais precisa.
- Caracteres de sobreposição de parágrafo: quando os parágrafos precisam ser compreendidos no contexto, os caracteres de sobreposição de parágrafo podem ser preenchidos conforme necessário para tentar exibir o conteúdo relevante entre contextos em um único parágrafo.
- Segmentação: a segmentação padrão dos símbolos de segmentação contém basicamente a maior parte da segmentação de texto, como os resultados da segmentação não são apropriados, você pode visualizar o documento adequado para cortar o local do símbolo, selecionar ou digitar para adicionar os símbolos de segmentação, de acordo com a ordem dos símbolos de segmentação para selecionar o corte.
Ideias para otimização de acompanhamento: tente garantir que o texto com a mesma semântica seja cortado em um parágrafoSe um parágrafo não puder ser dividido em um parágrafo devido à limitação do número de caracteres no parágrafo, a correlação entre os parágrafos poderá ser realizada por meio dos caracteres sobrepostos dos parágrafos, de modo que o modelo possa aumentar a probabilidade de ser recuperado ao mesmo tempo em que recupera e compreende de forma abrangente os resultados de saída.
Resultados da recuperação de modelos:
Saída de recuperação do modelo:
Caso 2: Caso de segmentação de conteúdo estrutural
Escopo de aplicação: o caso se aplica a registros de bate-papo de atendimento ao cliente, conversas de vendas e outros cenários de perguntas e respostas, formulários de texto, etc. Há umO conteúdo das características estruturais distintivasNecessidade de modelosCompreender a semântica do conteúdo em uma estrutura.
Exemplo de arquivo:Perguntas frequentes sobre a plataforma de corpo inteligente da Wenxin.docx
Pensamentos segmentados:
Recomenda-se usar a segmentação personalizada para tentar garantir que a mesma estrutura dentro do texto seja cortada em um parágrafoOs resultados específicos da segmentação podem ser visualizados fazendo o download do arquivo de exemplo e criando uma base de conhecimento.
- Máximo de caracteres de parágrafoPrimeiro, observe a estrutura do texto original, o número médio de caracteres em cada estrutura é quanto, o número máximo de caracteres será definido para quantos parágrafos, provavelmente selecione alguns parágrafos representativos para calcular o número médio de caracteres. Por exemplo, o documento de amostra é uma estrutura de perguntas e respostas, há 2 parágrafos, o número médio de caracteres é 340 caracteres, o número máximo de caracteres de parágrafo é definido como 340 caracteres.
- caráter de sobreposição de parágrafoOs caracteres sobrepostos são definidos como 0. Se os parágrafos não puderem ser divididos em um parágrafo devido à limitação do número de caracteres, os caracteres sobrepostos podem ser usados para associar os parágrafos, de modo que o modelo possa aumentar a probabilidade de ser recuperado ao mesmo tempo em que recupera a compreensão abrangente dos resultados de saída.
- segmentaçãoNo documento com uma estrutura mais distinta, cada grupo de perguntas e respostas é marcado como "pergunta", "resposta", e esperamos estar de acordo com a estrutura de uma segmentação de perguntas e respostas; você pode "perguntar" como um símbolo de segmentação e, no símbolo de "pergunta" antes da segmentação, você pode obter uma estrutura de perguntas e respostas dos resultados da segmentação.
Resultados da recuperação de modelos:
Saída de recuperação do modelo:
Caso 3: Caso de segmentação de conteúdo de classe de dados do Excel
Escopo de aplicação: os casos se aplicam aConsulta de dados, categoria de estatísticas de dadosda classe de dados da tabela do Excel, linha a linha, sem nenhuma correlação além da estatística.
Exemplo de arquivo:Dados de bilheteria de filmes para 2023.xlsx
Pensamentos segmentados:
Se for necessária uma análise estatística, os dados a serem calculados em conjunto devem ser divididos em 1 a 3 segmentos, tanto quanto possível (o modelo atual limita a base de conhecimento a um máximo de 2.000 caracteres), e tente garantir a integridade dos dados originais inseridos no modelo, para que os resultados estatísticos finais tenham uma alta taxa de correção;
Recomenda-se o uso de segmentos personalizados para tentar garantir a integridade dos dados brutos inseridos no modelo, de modo que as estatísticas finais estejam corretasOs resultados específicos da segmentação podem ser visualizados baixando o arquivo de exemplo e criando uma base de conhecimento.
- Máximo de caracteres de parágrafo: para garantir a integridade dos parágrafos recuperados, é necessário definir o número máximo de caracteres de parágrafo para o limite máximo de 512 caracteres.
- Caracteres de sobreposição de parágrafo: para reduzir o número de caracteres em um parágrafo ocupados por caracteres sobrepostos, o caractere de sobreposição de parágrafo precisa ser definido como zero.
- Segmentação: os dados do tipo tabela podem ser cortados diretamente por linha; o modo de segmentação seleciona "alimentação de linha".
Otimização subsequente das ideias de segmentaçãoSe o modelo limitar a base de conhecimento a um máximo de 2.000 caracteres, os dados a serem calculados deverão ser divididos em 1 a 3 parágrafos, tanto quanto possível. Para estatísticas maiores, recomenda-se fazer upload de uma planilha do Excel com no máximo 2 colunas para garantir que todos os dados necessários para as estatísticas sejam incluídos nos 3 parágrafos inseridos no modelo.
Resultados da recuperação de modelos:
Retoque os resultados de saída:
Atenção:
- Os cabeçalhos de tabela são importantes para a recuperação de resultados segmentadosO cabeçalho da tabela de dados precisa ter uma semântica clara e tentar não usar palavras fora do padrão que o modelo não consiga entender.
- Para plug-ins ou inteligências que precisam de análise estatística, você precisa adicionar os plug-ins ou inteligências aoOs prompts de comando que informam as etapas de cálculo detalhadas podem aumentar a precisão dos resultados estatísticos do modelo.
A base de conhecimento chama o controle de qualidade comum
Q1: Ao visualizar o efeito da chamada à base de conhecimento, ele exibe "Exceção de sistema" e "Exceção de serviço". Como devo lidar com isso?
A: Lamentamos afetar sua experiência, mas "exceção do sistema", "exceção de serviço" é apenas uma situação ocasional. Você pode tentar atualizar após o aviso, sair da página atual para visitá-la novamente, limpar o cache e outras formas de tentar novamente e retomar o uso.
Q2: E se minha base de conhecimento não for recuperada?
A: Pode ser que não haja nada na base de conhecimento que seja relevante para a pergunta.Página de gerenciamento da base de conhecimentoVerifique se há conteúdo relevante. Se não houver conteúdo relevante, a base de conhecimento pode ser enriquecida de acordo com a pergunta; se houver conteúdo relevante, mas não for lembrado, ele pode ser transferido para o Q3.
Q3: Tenho conteúdo relevante em minha base de conhecimento, mas continuo recebendo uma mensagem dizendo "No relevant knowledge base recalled" (Nenhuma base de conhecimento relevante recuperada).
A: Isso pode ser resolvido.
Em primeiro lugar, você pode inserir oPágina de gerenciamento da base de conhecimentoSe houver problemas semânticos, o conteúdo poderá ser editado primeiro para otimizar os problemas semânticos;
Em segundo lugar, o efeito de recuperação pode ser depurado diminuindo o [limite de relevância da recuperação] por meio da função de configuração de recuperação da base de conhecimento.Observação: [Retrieve Relevance Threshold] entrará em vigor globalmente para o corpo inteligente atual; é necessário integrar a maioria dos cenários de demanda para fazer a configuração, como a necessidade de otimizar apenas os casos individuais do problema; você pode enviar a resposta ideal por meio do [Feedback] para alterar o modelo e gerar a resposta.
A: Há três maneiras de tentar resolver esse problema:
1. modifique o conteúdo do parágrafo de recall, exclua a descrição relevante e, em seguida, analise novamente se ele será recuperado;
2. depuração da configuração de recuperação da base de conhecimento, quando a recuperação de resultados irrelevantes nos resultados de recuperação, classificados entre os últimos, você pode tentar melhorar o [limite de relevância da recuperação], reduzir o [número máximo de parágrafos recuperados], [número máximo de caracteres de parágrafo];
3) Se você só precisa otimizar um problema de exemplo, pode enviar a resposta ideal por meio de [Feedback] para alterar o modelo e gerar a resposta.
A: Há duas maneiras de tentar resolver esse problema:
1. depurando a configuração de recuperação da base de conhecimento, você pode tentar reduzir o [limite de relevância da recuperação], melhorar o [número máximo de parágrafos recuperados], [número máximo de caracteres de parágrafo];
2) Se você precisar otimizar apenas um problema de exemplo, poderá alterar o modelo para gerar a resposta, enviando a resposta ideal por meio de [Feedback].
A: Esse problema ocorre porque o modelo filtra os resultados da recuperação da base de conhecimento ao embelezar as respostas. Para resolver esse problema, tente complementar as configurações de caráter das inteligências com os requisitos para a aplicação da base de conhecimento. Exemplo:
- Modelo 1: quando o usuário faz uma pergunta, a base de conhecimento deve ser recuperada e, quando nenhum resultado é recuperado, a saída é "Sinto muito, não sei muito sobre esse assunto, podemos falar sobre outra coisa~".
- Modelo 2: quando um usuário faz uma pergunta, a resposta é gerada priorizando os resultados recuperados da base de conhecimento recuperada.