Expérience : Convertir le contenu d'un site WordPress en "base de connaissances" d'un assistant IA

Tutoriels pratiques sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

9.9K 00

un facteur (entraînant un effet)

Le Chief AI Sharing Circle a compilé un grand nombre de "commandes pratiques" et divers "outils d'IA", qui peuvent être consultés sur le site web en entrantmot-cléL'appariement pour la recherche n'a pas permis de trouver la ressource exacte recherchée. Le site web est plein d'excellentesGénérer des outils vidéoL'impossibilité d'être trouvé est intolérable.

Faute de pouvoir développer un site web, nous pouvons nous appuyer sur des fonctions externes pour effectuer des recherches :

S'appuyer sur le moteur de recherche pour utiliser la méthode de "recherche de site" pour résoudre le problème semble un peu lourd, et le contenu n'est pas inclus dans l'ensemble :

Ou tapez simplement : site:aisharenet.com SEO

Bien sûr, je n'ai pas la capacité de convertir directement le contenu d'un site web en recherche sémantique et de fournir une bonne interface pour l'utiliser :

Comment convertir le contenu d'un site web en une base de connaissances facilement consultable.

analyse du contenu

Les outils d'IA et leur mode d'emploi, dans la zone d'en-tête, décrivent clairement les caractéristiques de leur contenu, tandis que la zone de contenu, bien que présentée de manière plus détaillée, peut sembler être un peu plus complexe.perturbationsce qui affecte la qualité de la recherche. De plus, le contenu contient des images dont j'aimerais essayer de donner un aperçu aux lecteurs.

Exemples de contenu d'outils d'IA

Exemple d'utilisation du contenu d'une commande

Réflexion sur les stratégies de recherche

1. le titre et le contenu sont mélangés comme un paragraphe entier pour participer à la recherche sémantique

Points forts : Contenu complet

Inconvénients : trop de contenu entraîne des recherches imprécises

2) Récupérer uniquement le titre, puis citer la connaissance du contenu sur la base du titre.

Avantage : recherche précise

Inconvénients : portée réduite de la recherche effective

3. saisir le titre et le contenu dans le grand modèle pour le diviser en paires AQ

Avantage : améliore considérablement la portée de la recherche effective

Inconvénients : coûts de traitement et de temps plus élevés ; perte d'une partie importante du contenu et de la structure du texte original.

PS : il n'est pas nécessaire d'avoir une expérience en développement, vous pouvez déployer le projet DIFY de génération par lots de paires d'AQ, non démontré ici.

4. la cartographie des connaissances

Contenu non approprié, ignorer.

Je vais m'appuyer sur des plateformes libres et ouvertes pour l'édition des intelligences, qui ne prennent pas non plus en charge les graphes de connaissances.

La récupération sélective2 est simple et efficace. Bien que la portée effective de la recherche soit réduite, elle peut être optimisée progressivement par itération continue.
Le sujet du contenu n'a pas non plus besoin d'être impliqué dans la recherche, tant qu'il suit la sémantique pour retrouver le contenu de l'article.légendeCela réduit le nombre d'exceptions générées par le grand modèle lorsqu'il s'agit de contextes longs, et le renvoi de l'URL permet une lecture plus complète.

Outil de recherche Carrier

Quelle plate-forme à trois voies est utilisée pour mettre en œuvre la recherche sémantique ?

Il existe de nombreuses plateformes gratuites sur le marché qui prennent en charge les bases de connaissances, telles que MetaBase, Smart Spectrum, Buckle et Wenshin. Ici, je vais choisir la plateforme qui permet d'importer des paires d'AQ pour les retrouver.

Récupérer les paires QA : renvoyer la réponse B correspondant à la question A en récupérant la question A dans le grand modèle, et utiliser B comme contenu de référence pour répondre à la question de l'utilisateur.

Il n'est pas question ici de savoir quelle plateforme est la meilleure, quelle compréhension sémantique est la meilleure, mais leurs performances de base sont considérées comme satisfaisantes.

Où les utilisateurs l'utilisent-ils ?

La poussée principale est publique, ce qui permet aux utilisateurs d'effectuer des recherches en public.

Smart Spectrum est bien, mais je choisis Wenxin Intelligent Body, qui a des instructions opérationnelles plus claires pour gérer les règles d'assurance qualité. En même temps, Wenxin Intelligent Body peut être publié sur Baidu pour l'acquisition de clients. Lecture recommandée :Killer Traffic Portal : Utiliser l'intelligence artificielle pour obtenir du trafic externe pour les sites web et les numéros publics à long terme

Tutoriel d'utilisation

1. exporter des fichiers XML de WordPress

2. conversion de XML au format MD

2.1 Cliquez ici pour téléchargerprojet blog2md(math.) genreDézippez dans le répertoire D:\222\blog2md

2.2 Ouvrir le terminal SHELL en cliquant sur le bouton droit de la souris au début du répertoire blog2md.

2.3 Il est très probable que vous ayez besoin d'installer les dépendances, entrez la commande suivante

安装命令：
npm install xml2js
验证命令：
npm list xml2js

2.4 Nommer le fichier XML exporté 111.xml, le placer dans le répertoire D:\222\blog2md et exécuter la commande suivante

node index.js w 111.xml out

2.5 À ce stade, le répertoire D:\222\blog2md\out est généré, et vous pouvez vérifier si le contenu généré est correct après l'avoir saisi.

3.MD Convertir le format EXCEL

La grille de contenu md est structurée donc il est bon de l'extraire, ici j'écris un regular en chatgpt et l'exécute en python.

Je veux extraire : le nom du fichier (le nom du fichier est l'URL, par exemple https://aisharenet.com/anse/), le titre, la zone de contenu (--- le contenu ci-dessous).

3.1 Après l'exécution du script python, le fichier output.xlsx est généré dans le répertoire courant.

Contenu du script :

Sauvegardez le fichier script avec un nom aléatoire : 111.py et placez le script dans n'importe quel répertoire, ici je l'ai placé dans D:\222\blog2md.

Exécuter à partir de la ligne de commande (la ligne de commande par défaut ne peut pas exécuter 111.pt directement, vous devez ajouter le préfixe . \n-)

.\111.py

Le code du fichier script est le suivant, veuillez le sauvegarder sous le nom 111.py (généré par CHATGPT)

Répertoire pour lire les fichiers md : folder_path = "D:\\222\blog2md\out"
Générer EXCEL dans le répertoire courant : output_file = "output.xlsx"

import os
import pandas as pd
import re
import html
def clean_content(content):
# 移除 Markdown 语法中的特殊字符
content = re.sub(r'[*_~`#]', '', content)
# 将 HTML 实体转换为对应字符
content = html.unescape(content)
# 移除可能导致 Excel 问题的字符
content = ''.join(char for char in content if ord(char) < 65536)
# 替换换行符为空格
content = content.replace('\n', ' ').replace('\r', '')
# 移除多余的空格
content = re.sub(r'\s+', ' ', content).strip()
return content
def md_to_excel(folder_path, output_file):
data = []
for filename in os.listdir(folder_path):
if filename.endswith(".md"):
file_path = os.path.join(folder_path, filename)
try:
with open(file_path, "r", encoding="utf-8") as file:
content = file.read()
# 使用正则表达式提取元数据
metadata_pattern = r"---\n(.*?)\n---"
metadata_match = re.search(metadata_pattern, content, re.DOTALL)
if metadata_match:
metadata = metadata_match.group(1)
title = re.search(r"title:\s*['\"](.*?)['\"]", metadata)
title = title.group(1) if title else ""
# 提取内容部分
content_pattern = r"---\n.*?\n---\n\n(.*)"
content_match = re.search(content_pattern, content, re.DOTALL)
text_content = content_match.group(1) if content_match else ""
# 清理内容
cleaned_content = clean_content(text_content)
# 获取文件名（不包含.md后缀）作为URL
url = os.path.splitext(filename)[0]
data.append({
"title": title,
"content": cleaned_content,
"url": url
})
except Exception as e:
print(f"Error processing file {filename}: {str(e)}")
# 将数据转换为DataFrame并保存为Excel文件
df = pd.DataFrame(data)
try:
df.to_excel(output_file, index=False, engine='openpyxl')
print(f"Successfully saved to {output_file}")
except Exception as e:
print(f"Error saving Excel file: {str(e)}")
# 尝试使用 CSV 格式保存
csv_file = output_file.rsplit('.', 1)[0] + '.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"Saved as CSV instead: {csv_file}")
# 指定Markdown文件所在的目录和输出的Excel文件路径
folder_path = "D:\\222\\blog2md\\out"
output_file = "output.xlsx"
# 调用函数进行转换
md_to_excel(folder_path, output_file)

3.2 Rassembler les résultats.xlsx dans une base de connaissances à télécharger

Ici, seul le titre est conservé et l'URL complète est supprimée.

4. base de connaissances téléchargée par l'organisme intelligent Manxim

4.1 Accès à Literacy Mind Intelligence Body et téléchargement de la base de connaissances

4.2 Téléchargement de fichiers EXCEL

4.3 Colonnes de recherche personnalisées (c'est la raison pour laquelle Wenshin Intelligence est utilisé, les autres outils n'ont pas cette interface)

Pour plus de conseils sur l'organisation de votre base de connaissances, lisez la suite :Tutoriel sur le corps intelligent Wenxin : (4) Traitement des documents et synchronisation avec la base de connaissances

5. créer des intelligences et les publier pour utilisation

5.1 Création de l'Intelligentsia

Nous nous contenterons ici de le configurer sans nous attarder sur les détails. Commencer à créer des intelligences...

Vous pouvez essayer d'utiliser le mode low-code pour créer des corps intelligents, en ajoutant une base de connaissances multiples jugeant la logique, après tout, le site a de nombreux canaux Bien, je ne vais pas démontrer ici, les amis intéressés par le mode low-code peuvent lire :Tutoriel Wenxin sur le corps intelligent : (V) Chorégraphier les flux de travail du corps intelligent

5.2 Configuration d'Intelligentsia

Désactivez les fonctions qui ne font pas partie de la base de connaissances pour éviter les anomalies, et je laisserai les autres paramètres par défaut sans les affiner.

Le taux de réussite de la base de connaissances rappelée doit être testé brièvement, sinon il est facile de faire correspondre des contenus non pertinents.

5.3 Débogage et prévisualisation de la sortie

5.4 L'Intelligentsia de l'édition

ultime

Au final, vous obtenez un corps intelligent capable de rechercher rapidement des outils d'IA dans le public, et ce gratuitement ! D'après le canal de distribution de Wenxin Smartbody ( Plate-forme Wenxin pour le corps intelligent : applications pour le corps intelligent reposant sur des canaux de distribution complets et des fermetures commerciales ), cet outil sera publié sur la page d'accueil de Baidu pour permettre aux utilisateurs d'y accéder.