KG Gen : un outil open source pour la génération automatique de graphes de connaissances à partir de texte simple
Introduction générale
KGGen est un outil open source développé par le Stanford Trusted Artificial Intelligence Research Laboratory (STAIR Lab), hébergé sur GitHub, conçu pour générer automatiquement des graphes de connaissances à partir d'un texte arbitraire. Il utilise des modèles de langage avancés et des algorithmes de regroupement pour transformer des données textuelles non structurées en réseaux structurés d'entités et de relations pour les chercheurs, les développeurs et les analystes de données. Les points forts de KGGen, à savoir la simplicité d'utilisation et la fiabilité des résultats, ont été utilisés dans la recherche universitaire et le développement d'applications d'IA, et la dernière mise à jour date du 20 février 2025.1 Le projet a également fait l'objet d'une grande attention depuis sa publication.

Liste des fonctions
- Conversion d'un texte en un graphique de connaissances: Extraire des entités et des relations à partir d'un texte arbitraire afin de générer un graphe de connaissances structuré.
- Prise en charge des modèles multilinguesLes modèles linguistiques : Intégrer les modèles linguistiques courants pour améliorer la compréhension et la structuration des textes.
- Optimisation des algorithmes de regroupement: Amélioration de la connectivité et de la logique du graphe de connaissances grâce à des techniques de regroupement.
- Open Source PersonnalisableLe code complet est fourni, et les utilisateurs peuvent modifier et étendre la fonctionnalité selon leurs besoins.
- Exportation de donnéesLe graphique de connaissances généré peut être exporté dans plusieurs formats pour une analyse et une application ultérieures.
Utiliser l'aide
Processus d'installation
KGGen est un outil basé sur Python qui nécessite une certaine configuration de l'environnement de programmation pour être déployé. Voici les étapes détaillées de l'installation :
1. préparation à l'environnement
- système d'exploitationWindows, MacOS et Linux sont pris en charge.
- Version PythonPython 3.8 ou supérieur est recommandé.
- GitLe projet est en cours de réalisation : assurez-vous d'avoir installé Git pour cloner votre base de code.
- Outils de gestion des dépendancesUtilisation recommandée
pip
peut-êtreconda
.
2. clonage de la base de code
Clonez le projet KGGen localement en entrant la commande suivante dans un terminal ou une ligne de commande :
git clone https://github.com/stair-lab/kg-gen.git
cd kg-gen
3. installation des dépendances
Le projet prévoit une requirements.txt
contenant les bibliothèques de dépendances nécessaires. Exécutez la commande suivante pour les installer :
pip install -r requirements.txt
Si vous utilisez conda
Vous pouvez d'abord créer un environnement virtuel :
conda create -n kggen python=3.8
conda activate kggen
pip install -r requirements.txt
4. vérification de l'installation
Une fois l'installation terminée, accédez à l'interpréteur Python et entrez le code suivant pour vérifier le succès de l'opération :
import kg_gen
print(kg_gen.__version__)
Si le numéro de version de l'édition (par ex. 1.0.0
), ce qui indique que l'installation a réussi.
Utilisation
La fonction principale de KGGen est de générer des graphes de connaissances à partir de textes, et la procédure d'opération spécifique est décrite ci-dessous :
1. préparation du texte d'entrée
Créer un fichier texte (par exemple input.txt
), écrivez le texte à traiter. Exemple :
人工智能正在改变世界。机器学习是人工智能的核心技术。斯坦福大学的研究团队开发了许多创新工具。
Enregistrer le fichier sur kg-gen
Catalogue.
2. exécuter KGGen
Allez dans le répertoire du projet dans le terminal et exécutez la commande suivante :
python -m kg_gen --input input.txt --output graph.json
--input
: Spécifie le chemin d'accès au fichier texte d'entrée.--output
Spécifier le chemin d'accès au fichier de sortie du graphique de connaissances généré (le format JSON est pris en charge).
3. visualiser les résultats
Une fois l'exécution terminée, ouvrez le graph.json
vous obtiendrez ce qui suit :
{
"entities": ["人工智能", "机器学习", "斯坦福大学"],
"relations": [
{"source": "人工智能", "target": "机器学习", "relation": "包含"},
{"source": "斯坦福大学", "target": "创新工具", "relation": "开发"}
]
}
Cela signifie que KGGen a extrait l'entité du texte et établi la relation.
4) Configuration personnalisée (en option)
KGGen permet d'ajuster les paramètres afin d'optimiser les résultats. Édition config.py
La documentation, le cas échéant, peut être modifiée :
- modèle linguistiqueRemplacer par un autre modèle pré-entraîné (par exemple BERT).
- paramètre de regroupement: Ajustez le seuil de regroupement pour modifier la densité du tracé.
Enregistrez les modifications et exécutez à nouveau la commande ci-dessus.
Fonction en vedette Fonctionnement
Traitement par lots de plusieurs fichiers
Si vous devez traiter plusieurs fichiers texte, vous pouvez utiliser un appel de script en boucle :
for file in *.txt; do python -m kg_gen --input "$file" --output "${file%.txt}.json"; done
Il s'agit d'une occasion unique pour chaque .txt
génère le fichier .json
Dossier Atlas.
Graphique visuel des connaissances
KGGen ne dispose pas d'un outil de visualisation intégré, mais vous pouvez utiliser des bibliothèques tierces (par ex. networkx
répondre en chantant matplotlib
) Cartographie :
- Installer la dépendance :
pip install networkx matplotlib
- Ecrivez le script Python suivant (
visualize.py
) :
import json
import networkx as nx
import matplotlib.pyplot as plt
with open('graph.json', 'r') as f:
data = json.load(f)
G = nx.DiGraph()
for rel in data['relations']:
G.add_edge(rel['source'], rel['target'], label=rel['relation'])
pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True, node_color='lightblue', font_size=10)
edge_labels = nx.get_edge_attributes(G, 'label')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)
plt.show()
- Exécutez le script :
python visualize.py
Une représentation graphique du graphe de connaissances généré est visible.
Débogage et journalisation
Si les résultats générés ne sont pas conformes aux attentes, le mode débogage peut être activé :
python -m kg_gen --input input.txt --output graph.json --verbose
Cette opération permet d'obtenir un journal détaillé qui aide à localiser le problème.
mise en garde
- Qualité du textePlus le texte saisi est clair, plus les cartes générées sont précises.
- ressource informatiqueLa mémoire vive peut être nécessaire pour traiter des textes longs. Il est recommandé d'avoir au moins 8 Go de mémoire vive.
- Mise à jour de la maintenanceLes dépôts GitHub : Vérifiez régulièrement vos dépôts GitHub pour vous assurer que vous utilisez la dernière version.
Grâce à ces étapes, vous pouvez facilement commencer à utiliser KGGen, extraire des connaissances structurées à partir de textes et les appliquer à des projets réels.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...