Experimento: Convertir el contenido de todo el sitio de WordPress en la "base de conocimientos" de un asistente de IA

Tutoriales prácticos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

45.1K 00

un factor (que produce un efecto)

El Chief AI Sharing Circle ha recopilado un gran número de "comandos prácticos" y diversas "herramientas de IA", que pueden encontrarse en el sitio web introduciendobywordNo se ha podido encontrar el recurso exacto que se buscaba. El sitio web está lleno de excelentesGenerar herramientas de vídeoLa imposibilidad de ser encontrado es intolerable.

Al carecer de capacidad para desarrollar un sitio web, podemos confiar en funciones externas para la búsqueda:

Confiar en que el motor de búsqueda utilice el método de "búsqueda en el sitio" para resolver el problema parece un poco engorroso, y el contenido no se incluye en el conjunto:

O simplemente escribe: site:aisharenet.com SEO

Por supuesto, no tengo la capacidad de convertir directamente el contenido del sitio web a búsqueda semántica y proporcionar una buena interfaz para utilizarlo, por lo que el problema se centra en:

Cómo convertir el contenido de un sitio web en una base de conocimientos fácilmente recuperable.

análisis del contenido

Las herramientas de IA y las instrucciones para su uso, en el área de cabecera, describen en gran medida con claridad sus características de contenido, mientras que el área de contenido, aunque se presenta con más detalle, puede parecerperturbacionestexto, lo que afecta a la calidad de la recuperación. Además, hay imágenes en el contenido de las que me gustaría intentar ofrecer a los lectores una vista previa.

Ejemplos de contenido de herramientas de IA

Ejemplo de utilización del contenido de un comando

Pensar en estrategias de búsqueda

1. Título y contenido se mezclan como un párrafo completo para participar en la recuperación semántica

Pros: Contenido completo

Contras: Demasiado contenido lleva a búsquedas imprecisas

2. Recuperar sólo el título y, a continuación, citar el conocimiento del contenido basándose en el título.

Ventaja: búsqueda precisa

Contras: alcance reducido de la búsqueda efectiva

3. Introduzca el título y el contenido en el modelo grande para dividirlo en pares de control de calidad.

Ventaja: mejora enormemente el alcance efectivo de búsqueda

Inconvenientes: mayores costes de procesamiento y de tiempo; se perderán contenidos y estructuras importantes del texto original.

PS: no necesita ninguna experiencia de desarrollo, puede implementar el proyecto DIFY generación por lotes de pares de control de calidad, no se demuestra aquí.

4. Cartografía del conocimiento

Contenido no adecuado, ignorar.

Voy a confiar en plataformas libres y abiertas para la edición de inteligencias, que tampoco admiten gráficos de conocimiento.

La recuperación selectiva2 es sencilla y eficaz. Aunque el alcance efectivo de la recuperación es reducido, puede optimizarse de forma incremental mediante iteración continua.
En realidad, tampoco es necesario que el sujeto del contenido participe en la recuperación, siempre que siga la semántica para recuperar elleyendaEsto reduce el número de excepciones generadas por el modelo grande cuando se trata de contextos largos, y devolver la URL permite una lectura más completa.

Herramienta de búsqueda Portador

¿Qué plataforma tripartita se utiliza para implementar la búsqueda semántica?

Existen muchas plataformas gratuitas en el mercado que soportan bases de conocimiento, como MetaBase, Smart Spectrum, Buckle y Wenshin. Aquí voy a elegir la plataforma que soporta la importación de pares de GC para su recuperación.

Recuperar pares QA: devolver la respuesta B correspondiente a la pregunta A recuperando la pregunta A en el modelo grande, y utilizar B como contenido de referencia para responder a la pregunta del usuario.

Qué plataforma es mejor, qué comprensión semántica es mejor, no se considera aquí, su rendimiento básico se considera básicamente a la altura.

¿Dónde lo utilizan los usuarios?

El push principal es público, por lo que permite a los usuarios realizar búsquedas en público.

Smart Spectrum es bueno, pero yo elijo Wenxin Intelligent Body, que tiene instrucciones operativas más claras para gestionar las normas de control de calidad. Al mismo tiempo, Wenshin Intelligent Body puede publicarse en Baidu para captar clientes. Lectura recomendada:Killer Traffic Portal: El uso de IA Cuerpo Inteligente para conseguir tráfico externo para sitios web y números públicos en el largo plazo

Tutorial de funcionamiento

1. Exportar archivos XML desde WordPress

2.Conversión de XML a formato MD

2.1 Haga clic aquí para descargarproyecto blog2md(matemáticas) géneroDescomprimir en el directorio D:\222\blog2md

2.2 Abra el terminal SHELL pulsando el botón derecho del ratón al principio del directorio blog2md.

2.3 Lo más probable es que necesite instalar las dependencias, introduzca el siguiente comando

安装命令：
npm install xml2js
验证命令：
npm list xml2js

2.4 Nombre el archivo XML exportado 111.xml, colóquelo en el directorio D:\222\blog2md y ejecute el siguiente comando

node index.js w 111.xml out

2.5 Llegados a este punto, se genera el directorio D:\222\blog2md\out, y puede comprobar si el contenido generado es correcto después de introducirlo.

3.MD Convertir formato EXCEL

La rejilla de contenido md está estructurada por lo que es bueno extraer, aquí escribo un regular en chatgpt y lo ejecuto en python.

Quiero extraer: nombre del archivo (el nombre del archivo es la URL, por ejemplo https://aisharenet.com/anse/), título, área de contenido (--- el contenido de abajo)

3.1 Tras ejecutar el script python, se genera el archivo output.xlsx en el directorio actual.

Contenido del guión:

Guarda el archivo script y dale un nombre: 111.py, pon el script en cualquier directorio, aquí lo puse en D:\222\blog2md.

Ejecutar desde la línea de comandos (la línea de comandos por defecto no puede ejecutar 111.pt directamente, debe añadir el prefijo . \)

.\111.py

El código del archivo script es el siguiente, por favor guárdelo como 111.py (generado por CHATGPT)

Directorio para leer archivos md: folder_path = "D:\222\blog2md\\out"
Generar EXCEL en el directorio actual: output_file = "output.xlsx"

import os
import pandas as pd
import re
import html
def clean_content(content):
# 移除 Markdown 语法中的特殊字符
content = re.sub(r'[*_~`#]', '', content)
# 将 HTML 实体转换为对应字符
content = html.unescape(content)
# 移除可能导致 Excel 问题的字符
content = ''.join(char for char in content if ord(char) < 65536)
# 替换换行符为空格
content = content.replace('\n', ' ').replace('\r', '')
# 移除多余的空格
content = re.sub(r'\s+', ' ', content).strip()
return content
def md_to_excel(folder_path, output_file):
data = []
for filename in os.listdir(folder_path):
if filename.endswith(".md"):
file_path = os.path.join(folder_path, filename)
try:
with open(file_path, "r", encoding="utf-8") as file:
content = file.read()
# 使用正则表达式提取元数据
metadata_pattern = r"---\n(.*?)\n---"
metadata_match = re.search(metadata_pattern, content, re.DOTALL)
if metadata_match:
metadata = metadata_match.group(1)
title = re.search(r"title:\s*['\"](.*?)['\"]", metadata)
title = title.group(1) if title else ""
# 提取内容部分
content_pattern = r"---\n.*?\n---\n\n(.*)"
content_match = re.search(content_pattern, content, re.DOTALL)
text_content = content_match.group(1) if content_match else ""
# 清理内容
cleaned_content = clean_content(text_content)
# 获取文件名（不包含.md后缀）作为URL
url = os.path.splitext(filename)[0]
data.append({
"title": title,
"content": cleaned_content,
"url": url
})
except Exception as e:
print(f"Error processing file {filename}: {str(e)}")
# 将数据转换为DataFrame并保存为Excel文件
df = pd.DataFrame(data)
try:
df.to_excel(output_file, index=False, engine='openpyxl')
print(f"Successfully saved to {output_file}")
except Exception as e:
print(f"Error saving Excel file: {str(e)}")
# 尝试使用 CSV 格式保存
csv_file = output_file.rsplit('.', 1)[0] + '.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"Saved as CSV instead: {csv_file}")
# 指定Markdown文件所在的目录和输出的Excel文件路径
folder_path = "D:\\222\\blog2md\\out"
output_file = "output.xlsx"
# 调用函数进行转换
md_to_excel(folder_path, output_file)

3.2 Recopilar los resultados.xlsx como base de conocimientos que se cargará

Aquí sólo se conserva el título y se elimina la URL completa.

4. Base de conocimientos cargada por el organismo inteligente Manxim

4.1 Acceso a la alfabetización Mente Cuerpo Inteligente y carga de la base de conocimientos

4.2 Cargar archivos EXCEL

4.3 Columnas de búsqueda personalizadas (este es el motivo del uso de Wenshin Intelligence, otras herramientas carecen de esta interfaz)

Para más consejos sobre cómo organizar su base de conocimientos, siga leyendo:Tutorial Literario Mente-Cuerpo Inteligente: (4) Procesamiento de documentos y sincronización con la base de conocimientos

5. Crear inteligencias y publicarlas para su uso

5.1 Crear Intelligentsia

Aquí nos limitaremos a configurarlo sin entrar en detalles. Empezando a crear inteligencias...

Usted puede tratar de utilizar el modo de bajo código para crear cuerpos inteligentes, la adición de múltiples base de conocimientos juicio lógica, después de todo, el sitio tiene muchos canales Bueno, no voy a demostrar aquí, interesado en los amigos de bajo código puede leer:Wenxin Intelligent Body Tutorial: (V) Coreografía de flujos de trabajo del cuerpo inteligente

5.2 Configuración de Intelligentsia

Desactive las funciones que no sean de la Base de Conocimientos para evitar anomalías, y dejaré los demás ajustes por defecto sin afinar.

El porcentaje de aciertos de la base de conocimientos recuperada debe comprobarse brevemente, ya que de lo contrario es fácil que coincida con contenidos irrelevantes.

5.3 Depuración y previsualización de la salida

5.4 Inteligencia editorial

lo último en

Al final, obtienes un cuerpo inteligente que puede buscar rápidamente herramientas de IA en el público, ¡todo gratis! Mientras tanto, según el canal de distribución de Wenxin Smartbody ( Plataforma corporal inteligente Wenxin: aplicaciones corporales inteligentes construidas sobre canales de distribución completos y cierres comerciales ), esta herramienta se publicará en la página de inicio de Baidu para facilitar el acceso a los usuarios.