KG Gen : un outil open source pour la génération automatique de graphes de connaissances à partir de texte simple

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

22.9K 00

Introduction générale

KGGen est un outil open source développé par le Stanford Trusted Artificial Intelligence Research Laboratory (STAIR Lab), hébergé sur GitHub, conçu pour générer automatiquement des graphes de connaissances à partir d'un texte arbitraire. Il utilise des modèles de langage avancés et des algorithmes de regroupement pour transformer des données textuelles non structurées en réseaux structurés d'entités et de relations pour les chercheurs, les développeurs et les analystes de données. Les points forts de KGGen, à savoir la simplicité d'utilisation et la fiabilité des résultats, ont été utilisés dans la recherche universitaire et le développement d'applications d'IA, et la dernière mise à jour date du 20 février 2025.1 Le projet a également fait l'objet d'une grande attention depuis sa publication.

Liste des fonctions

Conversion d'un texte en un graphique de connaissances: Extraire des entités et des relations à partir d'un texte arbitraire afin de générer un graphe de connaissances structuré.
Prise en charge des modèles multilinguesLes modèles linguistiques : Intégrer les modèles linguistiques courants pour améliorer la compréhension et la structuration des textes.
Optimisation des algorithmes de regroupement: Amélioration de la connectivité et de la logique du graphe de connaissances grâce à des techniques de regroupement.
Open Source PersonnalisableLe code complet est fourni, et les utilisateurs peuvent modifier et étendre la fonctionnalité selon leurs besoins.
Exportation de donnéesLe graphique de connaissances généré peut être exporté dans plusieurs formats pour une analyse et une application ultérieures.

Utiliser l'aide

Processus d'installation

KGGen est un outil basé sur Python qui nécessite une certaine configuration de l'environnement de programmation pour être déployé. Voici les étapes détaillées de l'installation :

1. préparation à l'environnement

système d'exploitationWindows, MacOS et Linux sont pris en charge.
Version PythonPython 3.8 ou supérieur est recommandé.
GitLe projet est en cours de réalisation : assurez-vous d'avoir installé Git pour cloner votre base de code.
Outils de gestion des dépendancesUtilisation recommandée pip peut-être conda.

2. clonage de la base de code

Clonez le projet KGGen localement en entrant la commande suivante dans un terminal ou une ligne de commande :

git clone https://github.com/stair-lab/kg-gen.git
cd kg-gen

3. installation des dépendances

Le projet prévoit une requirements.txt contenant les bibliothèques de dépendances nécessaires. Exécutez la commande suivante pour les installer :

pip install -r requirements.txt

Si vous utilisez condaVous pouvez d'abord créer un environnement virtuel :

conda create -n kggen python=3.8
conda activate kggen
pip install -r requirements.txt

4. vérification de l'installation

Une fois l'installation terminée, accédez à l'interpréteur Python et entrez le code suivant pour vérifier le succès de l'opération :

import kg_gen
print(kg_gen.__version__)

Si le numéro de version de l'édition (par ex. 1.0.0), ce qui indique que l'installation a réussi.

Utilisation

La fonction principale de KGGen est de générer des graphes de connaissances à partir de textes, et la procédure d'opération spécifique est décrite ci-dessous :

1. préparation du texte d'entrée

Créer un fichier texte (par exemple input.txt), écrivez le texte à traiter. Exemple :

人工智能正在改变世界。机器学习是人工智能的核心技术。斯坦福大学的研究团队开发了许多创新工具。

Enregistrer le fichier sur kg-gen Catalogue.

2. exécuter KGGen

Allez dans le répertoire du projet dans le terminal et exécutez la commande suivante :

python -m kg_gen --input input.txt --output graph.json

--input: Spécifie le chemin d'accès au fichier texte d'entrée.
--outputSpécifier le chemin d'accès au fichier de sortie du graphique de connaissances généré (le format JSON est pris en charge).

3. visualiser les résultats

Une fois l'exécution terminée, ouvrez le graph.jsonvous obtiendrez ce qui suit :

{
"entities": ["人工智能", "机器学习", "斯坦福大学"],
"relations": [
{"source": "人工智能", "target": "机器学习", "relation": "包含"},
{"source": "斯坦福大学", "target": "创新工具", "relation": "开发"}
]
}

Cela signifie que KGGen a extrait l'entité du texte et établi la relation.

4) Configuration personnalisée (en option)

KGGen permet d'ajuster les paramètres afin d'optimiser les résultats. Édition config.py La documentation, le cas échéant, peut être modifiée :

modèle linguistiqueRemplacer par un autre modèle pré-entraîné (par exemple BERT).
paramètre de regroupement: Ajustez le seuil de regroupement pour modifier la densité du tracé.
Enregistrez les modifications et exécutez à nouveau la commande ci-dessus.

Fonction en vedette Fonctionnement

Traitement par lots de plusieurs fichiers

Si vous devez traiter plusieurs fichiers texte, vous pouvez utiliser un appel de script en boucle :

for file in *.txt; do python -m kg_gen --input "$file" --output "${file%.txt}.json"; done

Il s'agit d'une occasion unique pour chaque .txt génère le fichier .json Dossier Atlas.

Graphique visuel des connaissances

KGGen ne dispose pas d'un outil de visualisation intégré, mais vous pouvez utiliser des bibliothèques tierces (par ex. networkx répondre en chantant matplotlib) Cartographie :

Installer la dépendance :

pip install networkx matplotlib

Ecrivez le script Python suivant (visualize.py) :

import json
import networkx as nx
import matplotlib.pyplot as plt
with open('graph.json', 'r') as f:
data = json.load(f)
G = nx.DiGraph()
for rel in data['relations']:
G.add_edge(rel['source'], rel['target'], label=rel['relation'])
pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True, node_color='lightblue', font_size=10)
edge_labels = nx.get_edge_attributes(G, 'label')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)
plt.show()

Exécutez le script :

python visualize.py

Une représentation graphique du graphe de connaissances généré est visible.

Débogage et journalisation

Si les résultats générés ne sont pas conformes aux attentes, le mode débogage peut être activé :

python -m kg_gen --input input.txt --output graph.json --verbose

Cette opération permet d'obtenir un journal détaillé qui aide à localiser le problème.

mise en garde

Qualité du textePlus le texte saisi est clair, plus les cartes générées sont précises.
ressource informatiqueLa mémoire vive peut être nécessaire pour traiter des textes longs. Il est recommandé d'avoir au moins 8 Go de mémoire vive.
Mise à jour de la maintenanceLes dépôts GitHub : Vérifiez régulièrement vos dépôts GitHub pour vous assurer que vous utilisez la dernière version.

Grâce à ces étapes, vous pouvez facilement commencer à utiliser KGGen, extraire des connaissances structurées à partir de textes et les appliquer à des projets réels.