LangExtract - Bibliothèque Python open source de Google pour l'extraction d'informations structurées

Dernières ressources sur l'IAPosté il y a 4 semaines Cercle de partage de l'IA

13.6K 00

Qu'est-ce que LangExtract ?

LangExtract est une bibliothèque Python Open Source de Google qui utilise de grands modèles de langage (LLM) pour extraire des informations structurées à partir de textes non structurés. Avec des commandes définies par l'utilisateur et un petit nombre d'exemples, elle peut identifier et organiser efficacement des détails clés, tels que les noms de médicaments dans les notes cliniques ou les relations entre les personnages dans la littérature, etc. Les principaux atouts de LangExtract sont son positionnement précis dans le texte source, qui fait correspondre chaque extraction à l'emplacement exact du texte original, et sa prise en charge de la mise en évidence visuelle, qui facilite les recherches et les vérifications. LangExtract offre des capacités de visualisation interactive et peut générer des fichiers HTML autonomes, ce qui permet aux utilisateurs de visualiser et d'examiner facilement les résultats de l'extraction dans leur contexte d'origine. LangExtract peut être utilisé dans une variété de domaines tels que la santé, la littérature, la finance, etc., en aidant les utilisateurs à extraire rapidement des informations précieuses à partir de textes complexes.

Principales fonctions de LangExtract

extraction de texteLe logiciel de gestion des données de l'entreprise : il permet d'extraire des informations clés d'un texte non structuré et de prendre en charge de nombreux types de données, tels que les notes cliniques, les rapports, etc.
positionnement précisLe système de gestion de l'information de la Commission européenne (CEI) permet d'établir une correspondance précise entre le contenu extrait et l'emplacement du texte source et de mettre en évidence les éléments visuels à des fins de traçabilité et de vérification.
Sortie structuréeLes informations extraites sont présentées dans un format structuré (par exemple JSONL) afin de faciliter le traitement et l'analyse ultérieurs.
Optimisation des documents longs: Traiter efficacement les documents ultra-longs et améliorer le rappel grâce à des stratégies de découpage du texte et d'extraction à plusieurs tours.
Visualisation interactiveLes fichiers HTML interactifs qui permettent aux utilisateurs de visualiser et d'examiner les résultats de l'extraction dans leur contexte d'origine.
Support de modèles flexiblesModèles linguistiques : plusieurs modèles linguistiques sont pris en charge, y compris des modèles basés sur le cloud (par exemple Google Gemini) et des modèles locaux à source ouverte.
Adaptation du domaineLes tâches d'extraction pour n'importe quel domaine peuvent être définies avec un petit nombre d'exemples, sans qu'il soit nécessaire d'affiner le modèle, pour de multiples domaines tels que les soins de santé, la littérature, la finance et bien d'autres.
Traitement efficaceIl prend en charge le traitement parallèle, améliore l'efficacité de l'extraction et convient aux tâches de traitement de texte à grande échelle.

Adresse du projet LangExtract

Site web du projet: : https://pypi.org/project/langextract/
Dépôt GitHub: : https://github.com/google/langextract

Comment utiliser LangExtract

Installation de LangExtractInstallation de la bibliothèque LangExtract à l'aide de pip, l'outil de gestion des paquets de Python.
Définir la tâche d'extractionLes instructions d'extraction : élaborer des instructions d'extraction en fonction des besoins, spécifier le type d'informations à extraire et préparer une petite quantité de données d'échantillonnage.
modèle de configurationChoisir un modèle linguistique approprié, soit un modèle en nuage (par exemple, Google Gemini), soit un modèle local (par exemple, via l'outil de gestion de la langue). Ollama (Interface).
Code d'écritureLes résultats de l'étude sont les suivants : écrire du code en utilisant l'API fournie par LangExtract pour charger le modèle et appeler la fonction d'extraction.
Extraction en cours d'exécutionLangExtract effectue l'extraction d'informations conformément à la tâche et au modèle définis.
Enregistrer les résultatsLes résultats de l'extraction peuvent être sauvegardés dans un format structuré (par exemple, un fichier JSONL) pour faciliter leur traitement ultérieur.
Générer des rapports de visualisationLes outils fournis par LangExtract permettent de générer des rapports de visualisation HTML interactifs pour faciliter la visualisation et la validation des résultats de l'extraction.
Optimisation et ajustementLes résultats de l'extraction peuvent être ajustés en fonction de la précision et de l'exigence des résultats de l'extraction.

Les points forts de LangExtract

Positionnement précis du texte sourceIl permet de relier précisément chaque extraction à sa position dans le texte original, de mettre en évidence les éléments visuels et de faciliter la traçabilité et la vérification.
Adaptation flexible du modèleLes modèles linguistiques multiples sont pris en charge, y compris les modèles en nuage (par exemple Google Gemini) et les modèles open source locaux (par exemple via l'interface Ollama), s'adaptant ainsi aux besoins des différents scénarios.
Traitement optimisé des documents longsOptimisé pour les documents très longs afin d'améliorer l'efficacité de l'extraction et la mémorisation grâce au découpage du texte, au traitement parallèle et aux stratégies d'extraction à plusieurs tours.
Visualisation interactiveLe système de visualisation HTML : fournit des rapports de visualisation HTML interactifs générés en un seul clic, ce qui permet aux utilisateurs de visualiser et d'examiner facilement les résultats de l'extraction dans leur contexte d'origine.
Sortie structurée efficaceLa méthode de l'extraction de données : l'application d'un modèle de sortie cohérent basé sur un petit nombre d'exemples permet de garantir que les résultats de l'extraction sont structurés et robustes.
Grande capacité d'adaptation au terrainDéfinir des tâches d'extraction pour n'importe quel domaine avec seulement quelques exemples, sans affiner le modèle, pour un large éventail de domaines tels que les soins de santé, la littérature, la finance, etc.

À qui s'adresse LangExtract ?

Analyste de donnéesLes données textuelles : La nécessité d'extraire des informations utiles à partir de grandes quantités de données textuelles pour l'analyse des données et la création de rapports.
Praticiens de l'industrie médicaleles médecins, les infirmières, les chercheurs en médecine, pour le traitement de textes médicaux tels que les notes cliniques, les dossiers médicaux, etc.
Professionnels du droitLes services d'aide à la décision : par exemple, les avocats, le personnel juridique, pour analyser les documents juridiques, les contrats, etc. et en extraire les termes et les informations clés.
Personnel du secteur financierLes services financiers : par exemple, les analystes financiers, les gestionnaires de risques, pour le traitement des rapports financiers et des enregistrements de transactions.
Chercheurs universitairesLes données et les conclusions doivent être extraites de la littérature académique à des fins de recherche et de synthèse.
chercheur en littératureLes textes littéraires : Ils sont utilisés pour analyser les œuvres littéraires et en extraire des informations sur les personnages, l'intrigue, les thèmes, etc.