Foudinge Scrub : Construction d'un graphe de connaissances à partir de critiques de restaurants

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

17.2K 00

Introduction générale

Foudinge Scrub est un outil web open source hébergé sur GitHub et créé par le développeur Théophile Cantelobre. Il est conçu pour aider les utilisateurs à nettoyer et à éditer des entités de graphe de connaissances extraites de données textuelles complexes, en ciblant spécifiquement les données extraites du site d'évaluation de restaurants LeFooding.com. Construit à l'aide du framework Flask et de JavaScript pur, l'outil prend en charge des fonctionnalités telles que la recherche plein texte pour les utilisateurs qui doivent traiter des données dupliquées ou des problèmes de codage. En incorporant des techniques de génération structurée issues du Large Language Model (LLM), Foudinge Scrub fournit une interface intuitive qui permet aux utilisateurs d'optimiser efficacement les résultats d'extraction tout en maintenant l'intégrité structurelle des données. Le code du projet et les ressources connexes sont disponibles publiquement sur GitHub pour que les développeurs puissent les réutiliser ou les améliorer.

Liste des fonctions

Nettoyage et déduplication des données: : Identifier et réparer les entités dupliquées ou les éléments erronés extraits de données textuelles.
Recherche en texte intégralRecherche rapide d'entités ou de mots-clés spécifiques dans l'interface d'édition : : Prise en charge de la recherche rapide d'entités ou de mots-clés spécifiques dans l'interface d'édition.
Édition structurée: Fournir une interface visuelle pour ajuster manuellement les entités dans le graphe de connaissances tout en gardant la structure des données cohérente.
Correction de problèmes de codageRésolution des erreurs d'encodage de caractères causées par SQLite ou d'autres raisons.
Soutien à l'Open SourceLe code du projet est accessible au public et les utilisateurs peuvent le télécharger, le modifier ou y contribuer.

Utiliser l'aide

Acquisition et installation

Foudinge Scrub est un projet open source basé sur GitHub, les utilisateurs doivent d'abord télécharger le code et l'exécuter localement. Voici la procédure d'installation détaillée :

1. les conditions préalables

système d'exploitationWindows, MacOS ou Linux.
dépendance logicielle: Nécessite Python 3.7+, Git, et un éditeur de code (tel que VS Code).
environnement du réseauPour ce faire, vous devez vous assurer que vous avez accès à GitHub et installer les PyPIs nécessaires à vos dépendances.

2. télécharger le projet

Ouvrez un terminal ou un outil de ligne de commande.

Entrez la commande suivante pour cloner le référentiel :

git clone https://github.com/theophilec/foudinge-scrub.git

Accédez au catalogue de projets :
```
cd foudinge-scrub
```

3. installation des dépendances

Le projet est basé sur Flask et le développement JavaScript et nécessite l'installation d'une dépendance Python. Exécutez la commande suivante :
```
pip install -r requirements.txt
```
au cas où requirements.txt La documentation n'est pas fournie, les dépendances principales peuvent être installées manuellement :
```
pip install flask
```
La partie JavaScript utilise des modèles Jinja, qui ne nécessitent pas d'installation supplémentaire, mais assurez-vous d'avoir un navigateur moderne (par exemple Chrome, Firefox) en local.

4) Exécution de l'application

Exécutez l'application Flask dans le répertoire racine du projet :
```
python app.py
```
Après un démarrage réussi, le terminal affichera quelque chose comme Running on http://127.0.0.1:5000/ L'astuce.
Ouvrez votre navigateur et tapez http://127.0.0.1:5000/Pour accéder à l'interface Foudinge Scrub, cliquez ici.

5. dépannage

si nous rencontrons ModuleNotFoundErrorVérifier les installations de dépendances manquantes.
Si le port est occupé, modifiez le app.py numéro de port dans le 5000 se transformer en 5001.

Principales fonctions

Nettoyage et déduplication des données

Préparer les donnéesFoudinge Scrub traite par défaut les données d'évaluation des restaurants provenant de LeFooding.com. Pour des données personnalisées, veuillez vous référer à theophilec/foudinge crawl code dans le référentiel (en utilisant SQLite, asyncio, et aiohttp) pour générer des fichiers de graphes de connaissances compatibles.
Importer des données: place le fichier de données dans le répertoire spécifié du projet (généralement le répertoire racine ou le chemin spécifié par le fichier de configuration).
Lancer le nettoyageLe système charge automatiquement les données et affiche une cartographie visuelle à l'ouverture de l'interface web. Les entités en double ou incorrectes sont mises en évidence ou marquées.
réglage manuelCliquez sur l'entité en double, sélectionnez "Fusionner" ou "Supprimer", confirmez et enregistrez les modifications.
Validation des résultatsL'atlas est mis à jour en temps réel après le nettoyage, afin de s'assurer qu'il n'y a pas d'erreur d'omission.

Recherche en texte intégral

Entrer dans le mode de recherchePour cela, il faut trouver le champ de recherche en haut de l'interface (généralement un champ de saisie à côté d'une icône en forme de loupe).
Saisir les mots-clésNom : Entrez le nom de l'entité à rechercher (par exemple, le nom d'un restaurant, le nom d'une personne) ou un mot-clé.
Voir les résultatsLe système dresse la liste des correspondances et clique pour accéder à l'emplacement de l'entité correspondante.
Utilisation avancée: : prend en charge les recherches floues, par exemple, en tapant "Gren", on obtient "Grenat".

Édition structurée

Ouvrir l'écran d'éditionDans la vue graphique, cliquez sur le nœud à modifier (par exemple, le champ "Chef" d'un restaurant).
Contenu de la modificationSaisissez la nouvelle valeur dans la boîte de dialogue, par exemple, changez le nom du restaurant avant "Neil Mahatsry" de "La Brasserie Communale" à quelque chose d'autre.
Enregistrer les modificationsCliquez sur le bouton "Enregistrer", le système vérifie le format des données pour s'assurer que la structure est cohérente.
AnnulerSi vous avez fait une erreur, vous pouvez cliquer sur le bouton "Annuler" pour rétablir l'état précédent.

Correction de problèmes de codage

Identification du problèmeSi l'interface est brouillée (par exemple, "Antoine Joannier" devient "Antoine JoanniÃ©r"), il s'agit d'une erreur de codage.
autoréparationLe système essaiera d'utiliser UTF-8 ou d'autres formats d'encodage.
saisie manuelleSi la correction automatique échoue, modifiez manuellement le champ brouillé et saisissez les caractères corrects.

Fonctions vedettes

Optimisation des graphes de connaissances en liaison avec le LLM

La caractéristique principale de Foudinge Scrub est l'utilisation de modèles linguistiques à grande échelle (LLM) pour générer des données structurées qui peuvent être optimisées par une édition manuelle. Par exemple, lors de l'extraction de "Antoine Joannier a travaillé à La Brasserie Communale avant de travailler à Grenat" à partir d'une critique de restaurant, le LLM génère du JSON :

{
"Person": {
"name": "Antoine Joannier",
"role": "Host",
"previous_restaurants": ["La Brasserie Communale"]
}
}

Vous pouvez adapter cette structure dans l'interface, par exemple en ajoutant un nouveau champ "restaurant_actuel" et en le remplissant avec "Grenat", comme suit :

Vérifier les nœuds pour l'affichage JSON.
Cliquez sur "Ajouter un champ" et saisissez les paires clé-valeur.
Lorsqu'il est enregistré, le mappage est mis à jour et reflète la nouvelle relation.

Collaboration Open Source

Contribuer au codeLes utilisateurs peuvent forker le dépôt, apporter des modifications au code et soumettre une demande d'extraction, par exemple pour ajouter un nouvel algorithme de recherche ou optimiser l'interface.
Voir le documentLe fichier README dans le répertoire racine du projet fournit des instructions de base, pour une logique de code détaillée, se référer au fichier README. app.py et les fichiers JavaScript.

Recommandations d'utilisation

utilisation initialeLes données de l'échantillon sont d'abord exécutées pour vous familiariser avec la disposition de l'interface et la logique de fonctionnement.
Données à grande échelleSi vous traitez un grand nombre de commentaires, il est recommandé de les importer par lots afin d'éviter tout décalage avec le navigateur.
Soutien communautairePoser une question sur la page GitHub Issues, les développeurs ou la communauté peuvent être en mesure de vous aider.

Grâce à ces étapes, les utilisateurs peuvent rapidement commencer à utiliser Foudinge Scrub et réaliser efficacement les tâches de nettoyage des données et d'optimisation des graphes de connaissances.