Foudinge Scrub : Construction d'un graphe de connaissances à partir de critiques de restaurants
Introduction générale
Foudinge Scrub est un outil web open source hébergé sur GitHub et créé par le développeur Théophile Cantelobre. Il est conçu pour aider les utilisateurs à nettoyer et à éditer des entités de graphe de connaissances extraites de données textuelles complexes, en ciblant spécifiquement les données extraites du site d'évaluation de restaurants LeFooding.com. Construit à l'aide du framework Flask et de JavaScript pur, l'outil prend en charge des fonctionnalités telles que la recherche plein texte pour les utilisateurs qui doivent traiter des données dupliquées ou des problèmes de codage. En incorporant des techniques de génération structurée issues du Large Language Model (LLM), Foudinge Scrub fournit une interface intuitive qui permet aux utilisateurs d'optimiser efficacement les résultats d'extraction tout en maintenant l'intégrité structurelle des données. Le code du projet et les ressources connexes sont disponibles publiquement sur GitHub pour que les développeurs puissent les réutiliser ou les améliorer.

Liste des fonctions
- Nettoyage et déduplication des données: : Identifier et réparer les entités dupliquées ou les éléments erronés extraits de données textuelles.
- Recherche en texte intégralRecherche rapide d'entités ou de mots-clés spécifiques dans l'interface d'édition : : Prise en charge de la recherche rapide d'entités ou de mots-clés spécifiques dans l'interface d'édition.
- Édition structurée: Fournir une interface visuelle pour ajuster manuellement les entités dans le graphe de connaissances tout en gardant la structure des données cohérente.
- Correction de problèmes de codageRésolution des erreurs d'encodage de caractères causées par SQLite ou d'autres raisons.
- Soutien à l'Open SourceLe code du projet est accessible au public et les utilisateurs peuvent le télécharger, le modifier ou y contribuer.
Utiliser l'aide
Acquisition et installation
Foudinge Scrub est un projet open source basé sur GitHub, les utilisateurs doivent d'abord télécharger le code et l'exécuter localement. Voici la procédure d'installation détaillée :
1. les conditions préalables
- système d'exploitationWindows, MacOS ou Linux.
- dépendance logicielle: Nécessite Python 3.7+, Git, et un éditeur de code (tel que VS Code).
- environnement du réseauPour ce faire, vous devez vous assurer que vous avez accès à GitHub et installer les PyPIs nécessaires à vos dépendances.
2. télécharger le projet
- Ouvrez un terminal ou un outil de ligne de commande.
- Entrez la commande suivante pour cloner le référentiel :
git clone https://github.com/theophilec/foudinge-scrub.git
- Accédez au catalogue de projets :
cd foudinge-scrub
3. installation des dépendances
- Le projet est basé sur Flask et le développement JavaScript et nécessite l'installation d'une dépendance Python. Exécutez la commande suivante :
pip install -r requirements.txt
- au cas où
requirements.txt
La documentation n'est pas fournie, les dépendances principales peuvent être installées manuellement :pip install flask
- La partie JavaScript utilise des modèles Jinja, qui ne nécessitent pas d'installation supplémentaire, mais assurez-vous d'avoir un navigateur moderne (par exemple Chrome, Firefox) en local.
4) Exécution de l'application
- Exécutez l'application Flask dans le répertoire racine du projet :
python app.py
- Après un démarrage réussi, le terminal affichera quelque chose comme
Running on http://127.0.0.1:5000/
L'astuce. - Ouvrez votre navigateur et tapez
http://127.0.0.1:5000/
Pour accéder à l'interface Foudinge Scrub, cliquez ici.
5. dépannage
- si nous rencontrons
ModuleNotFoundError
Vérifier les installations de dépendances manquantes. - Si le port est occupé, modifiez le
app.py
numéro de port dans le5000
se transformer en5001
.
Principales fonctions
Nettoyage et déduplication des données
- Préparer les donnéesFoudinge Scrub traite par défaut les données d'évaluation des restaurants provenant de LeFooding.com. Pour des données personnalisées, veuillez vous référer à
theophilec/foudinge
crawl code dans le référentiel (en utilisant SQLite, asyncio, et aiohttp) pour générer des fichiers de graphes de connaissances compatibles. - Importer des données: place le fichier de données dans le répertoire spécifié du projet (généralement le répertoire racine ou le chemin spécifié par le fichier de configuration).
- Lancer le nettoyageLe système charge automatiquement les données et affiche une cartographie visuelle à l'ouverture de l'interface web. Les entités en double ou incorrectes sont mises en évidence ou marquées.
- réglage manuelCliquez sur l'entité en double, sélectionnez "Fusionner" ou "Supprimer", confirmez et enregistrez les modifications.
- Validation des résultatsL'atlas est mis à jour en temps réel après le nettoyage, afin de s'assurer qu'il n'y a pas d'erreur d'omission.
Recherche en texte intégral
- Entrer dans le mode de recherchePour cela, il faut trouver le champ de recherche en haut de l'interface (généralement un champ de saisie à côté d'une icône en forme de loupe).
- Saisir les mots-clésNom : Entrez le nom de l'entité à rechercher (par exemple, le nom d'un restaurant, le nom d'une personne) ou un mot-clé.
- Voir les résultatsLe système dresse la liste des correspondances et clique pour accéder à l'emplacement de l'entité correspondante.
- Utilisation avancée: : prend en charge les recherches floues, par exemple, en tapant "Gren", on obtient "Grenat".
Édition structurée
- Ouvrir l'écran d'éditionDans la vue graphique, cliquez sur le nœud à modifier (par exemple, le champ "Chef" d'un restaurant).
- Contenu de la modificationSaisissez la nouvelle valeur dans la boîte de dialogue, par exemple, changez le nom du restaurant avant "Neil Mahatsry" de "La Brasserie Communale" à quelque chose d'autre.
- Enregistrer les modificationsCliquez sur le bouton "Enregistrer", le système vérifie le format des données pour s'assurer que la structure est cohérente.
- AnnulerSi vous avez fait une erreur, vous pouvez cliquer sur le bouton "Annuler" pour rétablir l'état précédent.
Correction de problèmes de codage
- Identification du problèmeSi l'interface est brouillée (par exemple, "Antoine Joannier" devient "Antoine Joanniér"), il s'agit d'une erreur de codage.
- autoréparationLe système essaiera d'utiliser UTF-8 ou d'autres formats d'encodage.
- saisie manuelleSi la correction automatique échoue, modifiez manuellement le champ brouillé et saisissez les caractères corrects.
Fonctions vedettes
Optimisation des graphes de connaissances en liaison avec le LLM
La caractéristique principale de Foudinge Scrub est l'utilisation de modèles linguistiques à grande échelle (LLM) pour générer des données structurées qui peuvent être optimisées par une édition manuelle. Par exemple, lors de l'extraction de "Antoine Joannier a travaillé à La Brasserie Communale avant de travailler à Grenat" à partir d'une critique de restaurant, le LLM génère du JSON :
{
"Person": {
"name": "Antoine Joannier",
"role": "Host",
"previous_restaurants": ["La Brasserie Communale"]
}
}
Vous pouvez adapter cette structure dans l'interface, par exemple en ajoutant un nouveau champ "restaurant_actuel" et en le remplissant avec "Grenat", comme suit :
- Vérifier les nœuds pour l'affichage JSON.
- Cliquez sur "Ajouter un champ" et saisissez les paires clé-valeur.
- Lorsqu'il est enregistré, le mappage est mis à jour et reflète la nouvelle relation.
Collaboration Open Source
- Contribuer au codeLes utilisateurs peuvent forker le dépôt, apporter des modifications au code et soumettre une demande d'extraction, par exemple pour ajouter un nouvel algorithme de recherche ou optimiser l'interface.
- Voir le documentLe fichier README dans le répertoire racine du projet fournit des instructions de base, pour une logique de code détaillée, se référer au fichier README.
app.py
et les fichiers JavaScript.
Recommandations d'utilisation
- utilisation initialeLes données de l'échantillon sont d'abord exécutées pour vous familiariser avec la disposition de l'interface et la logique de fonctionnement.
- Données à grande échelleSi vous traitez un grand nombre de commentaires, il est recommandé de les importer par lots afin d'éviter tout décalage avec le navigateur.
- Soutien communautairePoser une question sur la page GitHub Issues, les développeurs ou la communauté peuvent être en mesure de vous aider.
Grâce à ces étapes, les utilisateurs peuvent rapidement commencer à utiliser Foudinge Scrub et réaliser efficacement les tâches de nettoyage des données et d'optimisation des graphes de connaissances.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...