Experiência: conversão do conteúdo de todo o site do WordPress em uma "base de conhecimento" do assistente de IA

Tutoriais práticos de IAAtualizado há 7 meses Círculo de compartilhamento de IA

9.9K 00

um fator (que leva a um efeito)

O Círculo Principal de Compartilhamento de IA compilou um grande número de "comandos práticos" e várias "ferramentas de IA", que podem ser encontrados no site digitandopalavra-chaveA correspondência para pesquisa não conseguiu encontrar o recurso exato necessário. O site está repleto de excelentesGerar ferramentas de vídeoA incapacidade de ser encontrado é intolerável.

Sem a capacidade de desenvolver um site, podemos confiar em funções externas para fazer buscas:

Confiar no mecanismo de pesquisa para usar o método de "pesquisa no site" para resolver o problema parece ser um pouco complicado, e o conteúdo não está incluído no todo:

Ou simplesmente digite: site:aisharenet.com SEO

É claro que não tenho a capacidade de converter diretamente o conteúdo do site em pesquisa semântica e fornecer uma boa interface para usá-lo, portanto, o problema está centrado nisso:

Como converter o conteúdo do site em uma base de conhecimento facilmente recuperável.

análise de conteúdo

As ferramentas de IA e as instruções para seu uso, na área do cabeçalho, descrevem claramente seus recursos de conteúdo, enquanto a área de conteúdo, embora apresentada em mais detalhes, pode parecerinterrupçõestexto, o que afeta a qualidade da recuperação. Além disso, há imagens no conteúdo que eu gostaria de tentar fornecer aos leitores com uma prévia.

Exemplos de conteúdo de ferramentas de IA

Exemplo de uso do conteúdo de um comando

Pensando em estratégias de pesquisa

1. o título e o conteúdo são misturados como um parágrafo inteiro para participar da recuperação semântica

Prós: Conteúdo completo

Contras: O excesso de conteúdo leva a pesquisas imprecisas

2. recupere apenas o título e, em seguida, cite o conhecimento do conteúdo com base no título

Vantagem: pesquisa precisa

Contras: Escopo de pesquisa efetivo reduzido

3. insira o título e o conteúdo no modelo grande para dividir em pares de controle de qualidade

Vantagem: aumenta consideravelmente o alcance efetivo da busca

Desvantagens: custos de processamento e tempo mais altos; conteúdo e estrutura importantes do texto original serão perdidos

PS: não é necessário ter experiência em desenvolvimento, você pode implantar o projeto DIFY de geração em lote de pares de QA, não demonstrado aqui.

4. mapeamento do conhecimento

Conteúdo não adequado, ignorar.

Vou me basear em plataformas gratuitas e abertas para editar inteligências, que também não suportam gráficos de conhecimento.

A recuperação seletiva2 é simples e eficiente. Embora o alcance efetivo da recuperação seja reduzido, ele pode ser otimizado de forma incremental por meio de iteração contínua.
O assunto do conteúdo também não precisa estar envolvido na recuperação, desde que siga a semântica para recuperar olegendaIsso reduz o número de exceções geradas pelo modelo grande ao lidar com contextos longos, e o retorno do URL permite uma leitura mais completa.

Ferramenta de busca Carrier

Qual plataforma de três vias é usada para implementar a pesquisa semântica?

Há muitas plataformas gratuitas no mercado que oferecem suporte a bases de conhecimento, como MetaBase, Smart Spectrum, Buckle e Wenshin. Aqui, vou escolher a plataforma que suporta a importação de pares de QA para recuperação.

Recuperar pares de QA: retorne a resposta B correspondente à pergunta A recuperando a pergunta A de volta para o modelo grande e use B como conteúdo de referência para responder à pergunta do usuário.

Qual plataforma é melhor, qual entendimento semântico é melhor, não é considerado aqui, seu desempenho básico é basicamente considerado dentro do padrão.

Onde os usuários o utilizam?

O push principal é público, portanto, permite que os usuários pesquisem em público.

O Smart Spectrum é bom, mas eu escolho o Wenxin Intelligent Body, que tem instruções operacionais mais claras para lidar com as regras de controle de qualidade. Ao mesmo tempo, o Wenshin Intelligent Body pode ser publicado no Baidu para aquisição de clientes. Leitura recomendada:Killer Traffic Portal: usando o corpo inteligente de IA para obter tráfego externo para sites e números públicos em longo prazo

Tutorial de operação

1. exportar arquivos XML do WordPress

2. conversão de XML para o formato MD

2.1 Clique aqui para fazer o downloadprojeto blog2md(matemática) gêneroDescompacte no diretório D:\222\blog2md

2.2 Abra o terminal SHELL clicando com o botão direito do mouse no início do diretório blog2md.

2.3 Provavelmente, você precisará instalar as dependências; digite o seguinte comando

安装命令：
npm install xml2js
验证命令：
npm list xml2js

2.4 Nomeie o arquivo XML exportado como 111.xml, coloque-o no diretório D:\222\blog2md e execute o seguinte comando

node index.js w 111.xml out

2.5 Nesse momento, o diretório D:\222\blog2md\out é gerado, e você pode verificar se o conteúdo gerado está correto após inseri-lo.

3.MD Converter o formato EXCEL

A grade de conteúdo do md é estruturada, por isso é bom extraí-la. Aqui, escrevo um regular em chatgpt e o executo em python.

Quero extrair: nome do arquivo (o nome do arquivo é o URL, por exemplo, https://aisharenet.com/anse/), título, área de conteúdo (--- o conteúdo abaixo)

3.1 Após a execução do script python, o arquivo output.xlsx é gerado no diretório atual.

Conteúdo do script:

Salve o arquivo de script com um nome aleatório: 111.py e coloque o script em qualquer diretório; neste caso, coloquei-o em D:\222\blog2md.

Execute a partir da linha de comando (a linha de comando padrão não pode executar 111.pt diretamente, você deve adicionar o prefixo . \)

.\111.py

O código do arquivo de script é o seguinte, salve-o como 111.py (gerado pelo CHATGPT)

Diretório para ler arquivos md: folder_path = "D:\\222\\blog2md\\out"
Gerar o EXCEL no diretório atual: output_file = "output.xlsx"

import os
import pandas as pd
import re
import html
def clean_content(content):
# 移除 Markdown 语法中的特殊字符
content = re.sub(r'[*_~`#]', '', content)
# 将 HTML 实体转换为对应字符
content = html.unescape(content)
# 移除可能导致 Excel 问题的字符
content = ''.join(char for char in content if ord(char) < 65536)
# 替换换行符为空格
content = content.replace('\n', ' ').replace('\r', '')
# 移除多余的空格
content = re.sub(r'\s+', ' ', content).strip()
return content
def md_to_excel(folder_path, output_file):
data = []
for filename in os.listdir(folder_path):
if filename.endswith(".md"):
file_path = os.path.join(folder_path, filename)
try:
with open(file_path, "r", encoding="utf-8") as file:
content = file.read()
# 使用正则表达式提取元数据
metadata_pattern = r"---\n(.*?)\n---"
metadata_match = re.search(metadata_pattern, content, re.DOTALL)
if metadata_match:
metadata = metadata_match.group(1)
title = re.search(r"title:\s*['\"](.*?)['\"]", metadata)
title = title.group(1) if title else ""
# 提取内容部分
content_pattern = r"---\n.*?\n---\n\n(.*)"
content_match = re.search(content_pattern, content, re.DOTALL)
text_content = content_match.group(1) if content_match else ""
# 清理内容
cleaned_content = clean_content(text_content)
# 获取文件名（不包含.md后缀）作为URL
url = os.path.splitext(filename)[0]
data.append({
"title": title,
"content": cleaned_content,
"url": url
})
except Exception as e:
print(f"Error processing file {filename}: {str(e)}")
# 将数据转换为DataFrame并保存为Excel文件
df = pd.DataFrame(data)
try:
df.to_excel(output_file, index=False, engine='openpyxl')
print(f"Successfully saved to {output_file}")
except Exception as e:
print(f"Error saving Excel file: {str(e)}")
# 尝试使用 CSV 格式保存
csv_file = output_file.rsplit('.', 1)[0] + '.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"Saved as CSV instead: {csv_file}")
# 指定Markdown文件所在的目录和输出的Excel文件路径
folder_path = "D:\\222\\blog2md\\out"
output_file = "output.xlsx"
# 调用函数进行转换
md_to_excel(folder_path, output_file)

3.2 Agrupar output.xlsx como uma base de conhecimento a ser carregada

Aqui, apenas o título é mantido e o URL completo é excluído.

4. base de conhecimento carregada pelo corpo inteligente da Manxim

4.1 Acesso ao Literacy Mind Intelligence Body e upload da base de conhecimento

4.2 Carregamento de arquivos EXCEL

4.3 Colunas de pesquisa personalizadas (esse é o motivo do uso do Wenshin Intelligence, pois outras ferramentas não têm essa interface)

Para obter mais dicas sobre como organizar sua base de conhecimento, continue lendo:Tutorial do Wenxin Intelligent Body: (4) Processamento de documentos e sincronização com a base de conhecimento

5. criar inteligências e publicá-las para uso

5.1 Criação da Intelligentsia

Aqui, simplesmente o configuraremos sem nos prendermos a detalhes específicos. Começando a criar inteligências...

Você pode tentar usar o modo com pouco código para criar corpos inteligentes, adicionando lógica de julgamento de várias bases de conhecimento, afinal, o site tem muitos canais:Tutorial de corpo inteligente Wenxin: (V) Coreografando fluxos de trabalho de corpo inteligente

5.2 Configuração do Intelligentsia

Desative as funções que não sejam da Base de Conhecimento para evitar anomalias, e deixarei as outras configurações como padrão, sem ajuste fino.

A taxa de acerto da base de conhecimento recuperada deve ser testada brevemente, caso contrário, é fácil fazer a correspondência com conteúdo irrelevante.

5.3 Depuração e visualização da saída

5.4 Intelligentsia editorial

máximo

No final, você obtém um corpo inteligente que pode procurar rapidamente ferramentas de IA no público, tudo de graça! Enquanto isso, com base no canal de distribuição do Wenxin Smartbody ( Plataforma de carroceria inteligente Wenxin: aplicativos de carroceria inteligente criados com base em canais de distribuição completos e fechamentos comerciais ), essa ferramenta será lançada na página inicial do Baidu para fornecer acesso aos usuários.