Tutorial do Wenxin Intelligent Body: (4) Processamento de documentos e sincronização com a base de conhecimento

Tutoriais práticos de IAAtualizado há 1 ano Círculo de compartilhamento de IA

15.4K 00

Introdução à base de conhecimento

A base de conhecimento é a base de dados para as respostas de saída do corpo inteligente e é adequada para desenvolvedores com acumulação de dados profissionais, bem como para aqueles que têm requisitos de precisão e profissionalismo para os resultados de saída.
Carregue seus próprios dados no módulo da base de conhecimento, no grande modelo e no processo de interação com o usuário, de acordo com o conteúdo semelhante recuperado da base de conhecimento, o grande modelo tocado para gerar os resultados, o que pode limitar efetivamente o escopo da geração de modelos.
A Wenxin Intelligent Body Platform respeita e protege totalmente a segurança de seus dados proprietários e não usará os dados enviados para treinar ou aprimorar modelos grandes de uso geral, e não abriu recursos de treinamento de modelos proprietários por enquanto.

1. cenário de uso

Desenvolvimento de código zero de inteligências com referências a bases de conhecimento e recuperação limitada;
Citando a base de conhecimento ao desenvolver inteligências em código baixo;
Cite a base de conhecimento e desenvolva plug-ins de dados rapidamente.

2. portal da base de conhecimento

Entrada 1: Após fazer login na plataforma, clique na navegação à esquerda para acessar o módulo da Base de Conhecimento.

Entrada 2: Para desenvolver inteligências de código zero, na página Criar inteligência, clique em "Nova base de conhecimento" para adicionar dados;

Entrada 3: desenvolvimento de inteligências de baixo código, na página de arranjo visual, arraste e solte o kit da base de conhecimento, clique em "New Knowledge Base" para entrar no módulo da base de conhecimento;

Entrada 4: Para desenvolver um plug-in de dados, na página Editar plug-in, clique em "Nova base de conhecimento" para acessar o módulo Base de conhecimento.

3. criação da base de conhecimento

Etapa 1: Faça o upload dos dados.

Há três maneiras de fazer upload dos dados da base de conhecimento: ①upload de arquivos locais, ②submit web address, ③Baidu.com.hk import. Uma conta pode criar 100 bases de conhecimento, a capacidade total de todas as bases de conhecimento não pode ser superior a 1G, uma base de conhecimento pode ser adicionada a 100 arquivos ou URLs e a capacidade total não pode exceder 200M.

①Arquivos locais

Atualmente, somente os tipos de texto e imagem são compatíveis, incluindo txt, md, docx, pdf, xlsx, csv, png, jpg, jpeg, m4a, mp3, mp4, mov, mpeg.Somente o upload de vídeo é suportado, o reconhecimento de conteúdo de vídeo não é suportado por enquanto.

tipo de dados	apelido	Instruções de upload
cópias	texto	Tamanho do arquivo não superior a 50 milhões
	md	Tamanho do arquivo não superior a 50 milhões
	docx	Tamanho do arquivo não superior a 50 milhões
		Por enquanto, não há suporte para gráficos; as imagens no arquivo serão filtradas e somente o texto será mantido
	pdf	Tamanho do arquivo não superior a 50 milhões
		Por enquanto, não há suporte para gráficos; as imagens no arquivo serão filtradas e somente o texto será mantido
		Há suporte para a digitalização de documentos de até 50 páginas.
	xlsx	Tamanho do arquivo não superior a 50 milhões
		Recomenda-se fazer upload de arquivos de dados no formato xlsx. Observe que, para garantir que o modelo possa entender o significado dos dados depois que o arquivo no formato xlsx for dividido, de modo que possa realizar consultas e estatísticas de dados mais precisas, o xlsx carregado deve conter cabeçalhos de tabela.
	csv	Tamanho do arquivo não superior a 50 milhões
fotografia	png	30px ≤ comprimento lateral ≤ 4096px, na proporção 3:1, o tamanho não pode exceder 20M.
		É possível fazer upload de até 500 imagens para uma base de conhecimento
		Resultados de reconhecimento mais precisos quando itens físicos são incluídos na imagem
	jpg	30px ≤ comprimento lateral ≤ 4096px, na proporção 3:1, o tamanho não pode exceder 20M.
		É possível fazer upload de até 500 imagens para um conjunto de bases de conhecimento
		Resultados de reconhecimento mais precisos quando itens físicos são incluídos na imagem
	jpeg	30px ≤ comprimento lateral ≤ 4096px, na proporção 3:1, o tamanho não pode exceder 20M.
		É possível fazer upload de até 500 imagens para uma base de conhecimento
		Resultados de reconhecimento mais precisos quando itens físicos são incluídos na imagem
frequência sonora	m4a	Tamanho do arquivo não superior a 50 milhões
		Converte áudio em texto por meio de reconhecimento inteligente
	mp3	Tamanho do arquivo não superior a 50 milhões
		Converte áudio em texto por meio de reconhecimento inteligente
vídeo	mp4	Tamanho do arquivo não superior a 200M
		Converte vídeo em texto por meio de reconhecimento inteligente
	mover	Tamanho do arquivo não superior a 200M
		Converte vídeo em texto por meio de reconhecimento inteligente
	mpeg	Tamanho do arquivo não superior a 200M
		Converte vídeo em texto por meio de reconhecimento inteligente

②Envio de site

Depois de digitar o endereço da página da Web, clique no botão "Identify" (Identificar) para identificar os dados de texto na página da Web; ele só é compatível com a identificação do endereço da página da Web que é acessível publicamente e foi indexado pelo Baidu; se você precisar fazer login e acessá-lo ou não estiver autorizado a ser indexado pelo Baidu, ele não conseguirá identificar o endereço da página da Web.
Você pode definir a frequência de atualização da base de conhecimento por reconhecimento automático de acordo com a frequência de atualizações da página da Web.

③Importação do Baidu.com

Pela primeira vez, você precisa autorizar os dados da conta Baidu.com e pode selecionar os arquivos no netbook após a autorização bem-sucedida.
O limite de tempo para a importação do netbook é limitado pela velocidade de download dos arquivos do netbook; se o tempo for longo, você poderá escolher o processamento em segundo plano.

Etapa 2: Processamento de dados.

Como o big model tem limitações rígidas de caracteres de entrada e saída nesse estágio, e a base de conhecimento também é um tipo de conteúdo de entrada, que também precisa seguir as limitações do número de caracteres de entrada do big model, o objetivo da segmentação de texto é cortar o texto longo em parágrafos curtos, eliminar informações irrelevantes e inserir o conteúdo mais relevante sob a premissa de garantir que os caracteres de entrada não excedam o limite. Para permitir que o modelo grande compreenda o conteúdo da imagem com mais precisão, ele chamará o modelo para anotar o conteúdo da imagem de forma inteligente primeiro. Atualmente, 2 a 3 parágrafos da base de conhecimento podem ser inseridos no big model, e o conteúdo relevante deve ser dividido em 3 parágrafos ou menos, na medida do possível.

Segmentação de texto: A plataforma oferece "segmentação padrão" e "segmentação personalizada", o que permite que os desenvolvedores cortem textos longos em vários segmentos de conteúdo de texto por meio de texto, pontuação, espaço, retorno de carro etc., para que o modelo possa entender com mais precisão o conteúdo do texto. Quando a segmentação é processada, os caracteres máximos de segmentação têm a garantia de serem cortados de acordo com o método de segmentação definido.

Romances, atendimento ao cliente e outros cenários de conteúdo de perguntas e respostas, dados e outros conteúdos, como configurar segmentos veja como configurar segmentos de arquivos (com exemplos)

Configuração de formulário: O cabeçalho da tabela do arquivo de formulário será usado como a principal informação para que o big model compreenda o conteúdo da tabela. Por padrão, a primeira linha da tabela será definida como o cabeçalho, que pode ser rotulado de forma personalizada de acordo com a estrutura real da tabela.

Configurações de multimídia: A chamada padrão para o grande modelo da imagem, o conteúdo de áudio para reconhecimento inteligente e a geração de anotação de texto, auxiliando a recuperação do link para a imagem, a compreensão do áudio, bem como a recuperação mais precisa da recordação. Se as informações de anotação geradas estiverem erradas, você poderá modificar manualmente o conteúdo incorreto.Fique atento aos recursos de reconhecimento de vídeo que serão lançados em breve!

4. uso da base de conhecimento

Maneira 1: desenvolvimento de código zero de inteligências, na página Criar corpo de inteligência, selecione Base de conhecimento. Você pode observar a chamada da base de conhecimento e otimizar o efeito de recuperação da base de conhecimento depurando os parâmetros de recuperação. Para obter mais detalhes, consulte: Controle de qualidade comum da chamada da base de conhecimento

Maneira 2: desenvolvimento de inteligências com pouco código, na página de orquestração visual, arraste e solte o conjunto de bases de conhecimento para selecionar a base de conhecimento que foi criada.

Caminho 3: Desenvolva um plug-in de dados e selecione a base de conhecimento que foi criada.

Como configurar a segmentação de documentos (com exemplos)

1) Quando é necessário alterar um segmento de documento?

Dados estruturados
A saída do Smartbody ou do plug-in resulta em acessos bem-sucedidos à base de conhecimento, mas contém muitas informações irrelevantes

2. como configurar a segmentação de arquivos

O objetivo do processamento de segmentação de dados é cortar um texto longo em parágrafos curtos, eliminando o máximo possível de informações irrelevantes do conteúdo recuperado, para que ele possa ser processado e compreendido com mais eficiência pelo modelo.

A Wenxin Intelligent Body Platform oferece segmentação padrão e segmentação personalizada. Para diferentes tipos de documentos, é necessário alternar entre diferentes configurações de segmentação.

Maximum Segment Characters (Máximo de caracteres do segmento): o número máximo de caracteres em um parágrafo após o corte de um texto longo, em vez do número de caracteres em cada parágrafo, você pode preencher qualquer número de 50 a 512;

Caracteres de sobreposição de parágrafo: o número máximo de caracteres repetíveis no início de cada segmento e no final do segmento anterior; você pode inserir qualquer número de 0 a 500; observe que o número de caracteres sobrepostos precisa ser menor do que o número máximo de caracteres de parágrafo, para manter a semântica original dos segmentos cortados o máximo possível, evitar a expressão incompleta devido à segmentação e ajudar o modelo a entender de forma mais precisa e completa;

Modo de segmentação: símbolos de segmentação para corte de texto longo, você pode escolher os símbolos de segmentação comumente usados ou inserir quaisquer símbolos; ao cortar o texto, a posição de corte será selecionada de acordo com a classificação dos símbolos de segmentação.

Observação: O número de segmentos de uma única base de conhecimento não pode exceder 700w; defina os segmentos de forma razoável.

3. casos segmentados

Caso 1: O caso da segmentação de conteúdo de texto longo

Escopo de aplicação: os casos são aplicáveis a romances, e-books, textos, apresentações de empresas, teses, documentos de patentes, etc., que exigem que o modelo compreenda a semântica no contexto do conteúdo do texto longo.

Exemplo de arquivo:O homem de terno.docx

Pensamentos segmentados:

Segmentação padrão recomendadaOs resultados específicos da segmentação podem ser visualizados fazendo o download do arquivo de exemplo e criando uma base de conhecimento.
- Máximo de caracteres de parágrafo: parágrafos de conteúdo de texto longo geralmente são mais longos, e há algumas relações entre parágrafos e parágrafos, portanto, o máximo de caracteres de parágrafo pode ser definido um pouco maior, para tentar garantir que o parágrafo contenha uma semântica completa, e que o modelo possa ser entendido de forma melhor e mais precisa.
- Caracteres de sobreposição de parágrafo: quando os parágrafos precisam ser compreendidos no contexto, os caracteres de sobreposição de parágrafo podem ser preenchidos conforme necessário para tentar exibir o conteúdo relevante entre contextos em um único parágrafo.
- Segmentação: a segmentação padrão dos símbolos de segmentação contém basicamente a maior parte da segmentação de texto, como os resultados da segmentação não são apropriados, você pode visualizar o documento adequado para cortar o local do símbolo, selecionar ou digitar para adicionar os símbolos de segmentação, de acordo com a ordem dos símbolos de segmentação para selecionar o corte.

Ideias para otimização de acompanhamento: tente garantir que o texto com a mesma semântica seja cortado em um parágrafoSe um parágrafo não puder ser dividido em um parágrafo devido à limitação do número de caracteres no parágrafo, a correlação entre os parágrafos poderá ser realizada por meio dos caracteres sobrepostos dos parágrafos, de modo que o modelo possa aumentar a probabilidade de ser recuperado ao mesmo tempo em que recupera e compreende de forma abrangente os resultados de saída.

Resultados da recuperação de modelos:

文心智能体教程：（四）加工文档并同步到知识库 Saída de recuperação do modelo:

Caso 2: Caso de segmentação de conteúdo estrutural

Escopo de aplicação: o caso se aplica a registros de bate-papo de atendimento ao cliente, conversas de vendas e outros cenários de perguntas e respostas, formulários de texto, etc. Há umO conteúdo das características estruturais distintivasNecessidade de modelosCompreender a semântica do conteúdo em uma estrutura.

Exemplo de arquivo:Perguntas frequentes sobre a plataforma de corpo inteligente da Wenxin.docx

Pensamentos segmentados:

Recomenda-se usar a segmentação personalizada para tentar garantir que a mesma estrutura dentro do texto seja cortada em um parágrafoOs resultados específicos da segmentação podem ser visualizados fazendo o download do arquivo de exemplo e criando uma base de conhecimento.
- Máximo de caracteres de parágrafoPrimeiro, observe a estrutura do texto original, o número médio de caracteres em cada estrutura é quanto, o número máximo de caracteres será definido para quantos parágrafos, provavelmente selecione alguns parágrafos representativos para calcular o número médio de caracteres. Por exemplo, o documento de amostra é uma estrutura de perguntas e respostas, há 2 parágrafos, o número médio de caracteres é 340 caracteres, o número máximo de caracteres de parágrafo é definido como 340 caracteres.
- caráter de sobreposição de parágrafoOs caracteres sobrepostos são definidos como 0. Se os parágrafos não puderem ser divididos em um parágrafo devido à limitação do número de caracteres, os caracteres sobrepostos podem ser usados para associar os parágrafos, de modo que o modelo possa aumentar a probabilidade de ser recuperado ao mesmo tempo em que recupera a compreensão abrangente dos resultados de saída.
- segmentaçãoNo documento com uma estrutura mais distinta, cada grupo de perguntas e respostas é marcado como "pergunta", "resposta", e esperamos estar de acordo com a estrutura de uma segmentação de perguntas e respostas; você pode "perguntar" como um símbolo de segmentação e, no símbolo de "pergunta" antes da segmentação, você pode obter uma estrutura de perguntas e respostas dos resultados da segmentação.

Resultados da recuperação de modelos:

文心智能体教程：（四）加工文档并同步到知识库 Saída de recuperação do modelo:

文心智能体教程：（四）加工文档并同步到知识库

Caso 3: Caso de segmentação de conteúdo de classe de dados do Excel

Escopo de aplicação: os casos se aplicam aConsulta de dados, categoria de estatísticas de dadosda classe de dados da tabela do Excel, linha a linha, sem nenhuma correlação além da estatística.

Exemplo de arquivo:Dados de bilheteria de filmes para 2023.xlsx

Pensamentos segmentados:

Se for necessária uma análise estatística, os dados a serem calculados em conjunto devem ser divididos em 1 a 3 segmentos, tanto quanto possível (o modelo atual limita a base de conhecimento a um máximo de 2.000 caracteres), e tente garantir a integridade dos dados originais inseridos no modelo, para que os resultados estatísticos finais tenham uma alta taxa de correção;

Recomenda-se o uso de segmentos personalizados para tentar garantir a integridade dos dados brutos inseridos no modelo, de modo que as estatísticas finais estejam corretasOs resultados específicos da segmentação podem ser visualizados baixando o arquivo de exemplo e criando uma base de conhecimento.
- Máximo de caracteres de parágrafo: para garantir a integridade dos parágrafos recuperados, é necessário definir o número máximo de caracteres de parágrafo para o limite máximo de 512 caracteres.
- Caracteres de sobreposição de parágrafo: para reduzir o número de caracteres em um parágrafo ocupados por caracteres sobrepostos, o caractere de sobreposição de parágrafo precisa ser definido como zero.
- Segmentação: os dados do tipo tabela podem ser cortados diretamente por linha; o modo de segmentação seleciona "alimentação de linha".

Otimização subsequente das ideias de segmentaçãoSe o modelo limitar a base de conhecimento a um máximo de 2.000 caracteres, os dados a serem calculados deverão ser divididos em 1 a 3 parágrafos, tanto quanto possível. Para estatísticas maiores, recomenda-se fazer upload de uma planilha do Excel com no máximo 2 colunas para garantir que todos os dados necessários para as estatísticas sejam incluídos nos 3 parágrafos inseridos no modelo.

Resultados da recuperação de modelos:

文心智能体教程：（四）加工文档并同步到知识库 Retoque os resultados de saída:

文心智能体教程：（四）加工文档并同步到知识库

Atenção:

Os cabeçalhos de tabela são importantes para a recuperação de resultados segmentadosO cabeçalho da tabela de dados precisa ter uma semântica clara e tentar não usar palavras fora do padrão que o modelo não consiga entender.
Para plug-ins ou inteligências que precisam de análise estatística, você precisa adicionar os plug-ins ou inteligências aoOs prompts de comando que informam as etapas de cálculo detalhadas podem aumentar a precisão dos resultados estatísticos do modelo.

A base de conhecimento chama o controle de qualidade comum

Q1: Ao visualizar o efeito da chamada à base de conhecimento, ele exibe "Exceção de sistema" e "Exceção de serviço". Como devo lidar com isso?
A: Lamentamos afetar sua experiência, mas "exceção do sistema", "exceção de serviço" é apenas uma situação ocasional. Você pode tentar atualizar após o aviso, sair da página atual para visitá-la novamente, limpar o cache e outras formas de tentar novamente e retomar o uso.

Q2: E se minha base de conhecimento não for recuperada?
A: Pode ser que não haja nada na base de conhecimento que seja relevante para a pergunta.Página de gerenciamento da base de conhecimentoVerifique se há conteúdo relevante. Se não houver conteúdo relevante, a base de conhecimento pode ser enriquecida de acordo com a pergunta; se houver conteúdo relevante, mas não for lembrado, ele pode ser transferido para o Q3.

Q3: Tenho conteúdo relevante em minha base de conhecimento, mas continuo recebendo uma mensagem dizendo "No relevant knowledge base recalled" (Nenhuma base de conhecimento relevante recuperada).
A: Isso pode ser resolvido.
Em primeiro lugar, você pode inserir oPágina de gerenciamento da base de conhecimentoSe houver problemas semânticos, o conteúdo poderá ser editado primeiro para otimizar os problemas semânticos;

Em segundo lugar, o efeito de recuperação pode ser depurado diminuindo o [limite de relevância da recuperação] por meio da função de configuração de recuperação da base de conhecimento.Observação: [Retrieve Relevance Threshold] entrará em vigor globalmente para o corpo inteligente atual; é necessário integrar a maioria dos cenários de demanda para fazer a configuração, como a necessidade de otimizar apenas os casos individuais do problema; você pode enviar a resposta ideal por meio do [Feedback] para alterar o modelo e gerar a resposta.

Q4: Os resultados de recuperação da base de conhecimento não são relevantes para a pergunta do usuário, mas o valor de relevância fornecido pelo sistema é bastante alto.
A: Há três maneiras de tentar resolver esse problema:
1. modifique o conteúdo do parágrafo de recall, exclua a descrição relevante e, em seguida, analise novamente se ele será recuperado;
2. depuração da configuração de recuperação da base de conhecimento, quando a recuperação de resultados irrelevantes nos resultados de recuperação, classificados entre os últimos, você pode tentar melhorar o [limite de relevância da recuperação], reduzir o [número máximo de parágrafos recuperados], [número máximo de caracteres de parágrafo];
3) Se você só precisa otimizar um problema de exemplo, pode enviar a resposta ideal por meio de [Feedback] para alterar o modelo e gerar a resposta.

Q5: O que fazer quando apenas uma parte dos resultados relevantes na base de conhecimento foi recuperada e há outros que também gostariam de ser recuperados?
A: Há duas maneiras de tentar resolver esse problema:
1. depurando a configuração de recuperação da base de conhecimento, você pode tentar reduzir o [limite de relevância da recuperação], melhorar o [número máximo de parágrafos recuperados], [número máximo de caracteres de parágrafo];
2) Se você precisar otimizar apenas um problema de exemplo, poderá alterar o modelo para gerar a resposta, enviando a resposta ideal por meio de [Feedback].

Q6: Os resultados do recall estão todos corretos, mas o resultado final não tem nada a ver com minha base de conhecimento, certo?
A: Esse problema ocorre porque o modelo filtra os resultados da recuperação da base de conhecimento ao embelezar as respostas. Para resolver esse problema, tente complementar as configurações de caráter das inteligências com os requisitos para a aplicação da base de conhecimento. Exemplo:
- Modelo 1: quando o usuário faz uma pergunta, a base de conhecimento deve ser recuperada e, quando nenhum resultado é recuperado, a saída é "Sinto muito, não sei muito sobre esse assunto, podemos falar sobre outra coisa~".
- Modelo 2: quando um usuário faz uma pergunta, a resposta é gerada priorizando os resultados recuperados da base de conhecimento recuperada.