Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

Experiência: conversão do conteúdo de todo o site do WordPress em uma "base de conhecimento" do assistente de IA

um fator (que leva a um efeito)

O Círculo Principal de Compartilhamento de IA compilou um grande número de "comandos práticos" e várias "ferramentas de IA", que podem ser encontrados no site digitandopalavra-chaveA correspondência para pesquisa não conseguiu encontrar o recurso exato necessário. O site está repleto de excelentesGerar ferramentas de vídeoA incapacidade de ser encontrado é intolerável.

实验:将WordPress全站内容转换为结构化QA知识库-1


 

Sem a capacidade de desenvolver um site, podemos confiar em funções externas para fazer buscas:

Confiar no mecanismo de pesquisa para usar o método de "pesquisa no site" para resolver o problema parece ser um pouco complicado, e o conteúdo não está incluído no todo:

实验:将WordPress全站内容转换为结构化QA知识库-1

Ou simplesmente digite: site:www.aisharenet.com SEO

 

É claro que não tenho a capacidade de converter diretamente o conteúdo do site em pesquisa semântica e fornecer uma boa interface para usá-lo, portanto, o problema está centrado nisso:

Como converter o conteúdo do site em uma base de conhecimento facilmente recuperável.

 

 

análise de conteúdo

As ferramentas de IA e as instruções para seu uso, na área do cabeçalho, descrevem claramente seus recursos de conteúdo, enquanto a área de conteúdo, embora apresentada em mais detalhes, pode parecerinterrupçõestexto, o que afeta a qualidade da recuperação. Além disso, há imagens no conteúdo que eu gostaria de tentar fornecer aos leitores com uma prévia.

 

Exemplos de conteúdo de ferramentas de IA

实验:将WordPress全站内容转换为结构化QA知识库-1

Exemplo de uso do conteúdo de um comando

实验:将WordPress全站内容转换为结构化QA知识库-1

 

 

Pensando em estratégias de pesquisa

 

1. o título e o conteúdo são misturados como um parágrafo inteiro para participar da recuperação semântica

Prós: Conteúdo completo

Contras: O excesso de conteúdo leva a pesquisas imprecisas

 

2. recupere apenas o título e, em seguida, cite o conhecimento do conteúdo com base no título

Vantagem: pesquisa precisa

Contras: Escopo de pesquisa efetivo reduzido

 

3. insira o título e o conteúdo no modelo grande para dividir em pares de controle de qualidade

Vantagem: aumenta consideravelmente o alcance efetivo da busca

Desvantagens: custos de processamento e tempo mais altos; conteúdo e estrutura importantes do texto original serão perdidos

PS: não é necessário ter experiência em desenvolvimento, você pode implantar o projeto DIFY de geração em lote de pares de QA, não demonstrado aqui.

 

4. mapeamento do conhecimento

Conteúdo não adequado, ignorar.

Vou me basear em plataformas gratuitas e abertas para editar inteligências, que também não suportam gráficos de conhecimento.

 

A recuperação seletiva2 é simples e eficiente. Embora o alcance efetivo da recuperação seja reduzido, ele pode ser otimizado de forma incremental por meio de iteração contínua.

O assunto do conteúdo também não precisa estar envolvido na recuperação, desde que siga a semântica para recuperar olegendaIsso reduz o número de exceções geradas pelo modelo grande ao lidar com contextos longos, e o retorno do URL permite uma leitura mais completa.

 

 

Ferramenta de busca Carrier

 

Qual plataforma de três vias é usada para implementar a pesquisa semântica?

Há muitas plataformas gratuitas no mercado que oferecem suporte a bases de conhecimento, como MetaBase, Smart Spectrum, Buckle e Wenshin. Aqui, vou escolher a plataforma que suporta a importação de pares de QA para recuperação.

Recuperar pares de QA: retorne a resposta B correspondente à pergunta A recuperando a pergunta A de volta para o modelo grande e use B como conteúdo de referência para responder à pergunta do usuário.

Qual plataforma é melhor, qual entendimento semântico é melhor, não é considerado aqui, seu desempenho básico é basicamente considerado dentro do padrão.

 

Onde os usuários o utilizam?

O push principal é público, portanto, permite que os usuários pesquisem em público.

 

O Smart Spectrum é bom, mas eu escolho o Wenxin Intelligent Body, que tem instruções operacionais mais claras para lidar com as regras de controle de qualidade. Ao mesmo tempo, o Wenshin Intelligent Body pode ser publicado no Baidu para aquisição de clientes. Leitura recomendada:Killer Traffic Portal: usando o corpo inteligente de IA para obter tráfego externo para sites e números públicos em longo prazo

 

 

Tutorial de operação

 

1. exportar arquivos XML do WordPress

实验:将WordPress全站内容转换为结构化QA知识库-1

 

2. conversão de XML para o formato MD

 

2.1 Clique aqui para fazer o downloadprojeto blog2md(matemática) gêneroDescompacte no diretório D:\222\blog2md

 

2.2 Abra o terminal SHELL clicando com o botão direito do mouse no início do diretório blog2md.

实验:将WordPress全站内容转换为结构化QA知识库-1

 

2.3 Provavelmente, você precisará instalar as dependências; digite o seguinte comando

安装命令:
npm install xml2js
验证命令:
npm list xml2js

 

2.4 Nomeie o arquivo XML exportado como 111.xml, coloque-o no diretório D:\222\blog2md e execute o seguinte comando

node index.js w 111.xml out

 

2.5 Nesse momento, o diretório D:\222\blog2md\out é gerado, e você pode verificar se o conteúdo gerado está correto após inseri-lo.

 

实验:将WordPress全站内容转换为结构化QA知识库-1

 

实验:将WordPress全站内容转换为结构化QA知识库-1

 

3.MD Converter o formato EXCEL

A grade de conteúdo do md é estruturada, por isso é bom extraí-la. Aqui, escrevo um regular em chatgpt e o executo em python.

Quero extrair: nome do arquivo (o nome do arquivo é o URL, por exemplo, https://www.aisharenet.com/anse/), título, área de conteúdo (--- o conteúdo abaixo)

 

3.1 Após a execução do script python, o arquivo output.xlsx é gerado no diretório atual.

实验:将WordPress全站内容转换为结构化QA知识库-1

 

Conteúdo do script:

Salve o arquivo de script com um nome aleatório: 111.py e coloque o script em qualquer diretório; neste caso, coloquei-o em D:\222\blog2md.

Execute a partir da linha de comando (a linha de comando padrão não pode executar 111.pt diretamente, você deve adicionar o prefixo . \)

.\111.py

 

O código do arquivo de script é o seguinte, salve-o como 111.py (gerado pelo CHATGPT)

Diretório para ler arquivos md: folder_path = "D:\\222\\blog2md\\out"

Gerar o EXCEL no diretório atual: output_file = "output.xlsx"

首席AI分享圈Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

3.2 Agrupar output.xlsx como uma base de conhecimento a ser carregada

Aqui, apenas o título é mantido e o URL completo é excluído.

实验:将WordPress全站内容转换为结构化QA知识库-1

 

4. base de conhecimento carregada pelo corpo inteligente da Manxim

 

4.1 Acesso ao Literacy Mind Intelligence Body e upload da base de conhecimento

实验:将WordPress全站内容转换为结构化QA知识库-1

 

4.2 Carregamento de arquivos EXCEL

实验:将WordPress全站内容转换为结构化QA知识库-1

 

4.3 Colunas de pesquisa personalizadas (esse é o motivo do uso do Wenshin Intelligence, pois outras ferramentas não têm essa interface)

实验:将WordPress全站内容转换为结构化QA知识库-1

 

Para obter mais dicas sobre como organizar sua base de conhecimento, continue lendo:Tutorial do Wenxin Intelligent Body: (4) Processamento de documentos e sincronização com a base de conhecimento

 

5. criar inteligências e publicá-las para uso

 

5.1 Criação da Intelligentsia

Aqui, simplesmente o configuraremos sem nos prendermos a detalhes específicos. Começando a criar inteligências...

Você pode tentar usar o modo com pouco código para criar corpos inteligentes, adicionando lógica de julgamento de várias bases de conhecimento, afinal, o site tem muitos canais:Tutorial de corpo inteligente Wenxin: (V) Coreografando fluxos de trabalho de corpo inteligente

实验:将WordPress全站内容转换为结构化QA知识库-1

 

5.2 Configuração do Intelligentsia

Desative as funções que não sejam da Base de Conhecimento para evitar anomalias, e deixarei as outras configurações como padrão, sem ajuste fino.

实验:将WordPress全站内容转换为结构化QA知识库-1

 

A taxa de acerto da base de conhecimento recuperada deve ser testada brevemente, caso contrário, é fácil fazer a correspondência com conteúdo irrelevante.

实验:将WordPress全站内容转换为“内容查询功能”为主的AI助手-1

 

5.3 Depuração e visualização da saída

实验:将WordPress全站内容转换为结构化QA知识库-1

 

5.4 Intelligentsia editorial

实验:将WordPress全站内容转换为结构化QA知识库-1

 

máximo

No final, você obtém um corpo inteligente que pode procurar rapidamente ferramentas de IA no público, tudo de graça! Enquanto isso, com base no canal de distribuição do Wenxin Smartbody ( Plataforma de carroceria inteligente Wenxin: aplicativos de carroceria inteligente criados com base em canais de distribuição completos e fechamentos comerciais ), essa ferramenta será lançada na página inicial do Baidu para fornecer acesso aos usuários.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Experiência: conversão do conteúdo de todo o site do WordPress em uma "base de conhecimento" do assistente de IA
pt_BRPortuguês do Brasil