wdoc : extraction de contenu et synthèse de connaissances à partir de documents massifs et multi-sources

Introduction générale

wdoc est un puissant système RAG (Retrieval Augmentation Generation) conçu pour traiter et analyser des documents volumineux et divers. Il est capable de récupérer des informations à partir d'un large éventail de types de documents, y compris des PDF, des pages web, des vidéos YouTube, des fichiers audio, etc. wdoc est particulièrement bien adapté au traitement de grandes quantités de sources d'information, ce qui en fait un outil idéal pour les chercheurs, les étudiants et les professionnels qui ont besoin de travailler avec de grandes quantités d'informations. Le système utilise la bibliothèque LangChain pour le traitement des documents, prend en charge un large éventail de fournisseurs de LLM (Large Language Model) et offre des fonctions de recherche et de résumé très précises. wdoc est en développement constant et les commentaires des utilisateurs ainsi que les demandes de fonctionnalités sont les bienvenus.

wdoc:从海量、多源文档中检索内容并总结知识

 

Liste des fonctions

  • Prise en charge de plusieurs types de fichiersLa prise en charge de plus de 15 types de fichiers, dont les PDF, les pages web, les vidéos YouTube, les fichiers audio et bien d'autres encore.
  • Recherche et résumé de haute précisionLe système de recherche de documents : Il permet de retrouver et de résumer des documents avec une grande précision grâce à la recherche intégrée et au traitement sémantique par lots.
  • Support multi-LLMLes fournisseurs de LLM multiples sont pris en charge, y compris les modèles locaux et les modèles privés avec des couches de sécurité supplémentaires.
  • Fonctions avancées du RAGL'objectif est de fournir des réponses précises et de fusionner les réponses par le biais d'un regroupement et d'un tri sémantiques.
  • Facile à étendrewdoc est un outil, mais aussi une bibliothèque qui permet aux utilisateurs d'utiliser wdoc dans d'autres projets Python.
  • Documentation et aide détailléesLes utilisateurs peuvent ainsi se familiariser rapidement avec le système.

 

Utiliser l'aide

montage

wdoc nécessite actuellement la version 3.11 de Python pour fonctionner. Veuillez vous assurer que vous disposez de la bonne version de Python et suivez les étapes ci-dessous pour l'installer :

  1. Utilisez pip pour l'installation :
    pip install -U wdoc
  1. ou d'installer une branche spécifique de git :
    pip install git+https://github.com/thiswillbeyourgithub/wdoc@dev
    
  2. Il est recommandé d'installer le support pdftotext et fasttext :
    pip install -U wdoc[pdftotext] wdoc[fasttext]
    

utiliser

  1. Ajoutez la clé API requise en tant que variable d'environnement :
    export OPENAI_API_KEY="您的API密钥"
    
  2. Démarrer wdoc :
    wdoc --task=query --path=您的文档路径
    

Fonction Opération Déroulement

Recherche de documents

Utilisez wdoc pour interroger le contenu d'un document :

wdoc --task=query --path=您的文档路径 --filetype=pdf --query="查询内容"

La commande chargera le fichier PDF à partir du chemin spécifié et l'extraira en fonction de la requête, puis renverra les documents pertinents.

Résumé de la documentation

Utilisez wdoc pour résumer le document :

wdoc --task=summarize --path=您的文档路径 --filetype=pdf

La commande résume le chemin d'accès spécifié au fichier PDF et renvoie un résumé détaillé du contenu du document.

Tâches combinées

Vous pouvez également combiner les tâches d'interrogation et de synthèse :

wdoc --task=summarize_then_query --path=您的文档路径 --filetype=pdf

Cette commande résume d'abord le contenu du document et vous permet ensuite de poser des questions complémentaires sur le résumé.

Fonctionnalités avancées

wdoc prend en charge une série de fonctions avancées telles que :

  • Prise en charge de plusieurs types de fichiersChargement de plusieurs types de fichiers via des chemins récursifs, des fichiers liés, etc.
  • Fonctions avancées du RAGAméliorer la précision de la recherche en utilisant des techniques telles que la recherche multi-requête et le traitement sémantique par lots.
  • Soutien local et privé au LLMLes données sont sécurisées et ne sont pas divulguées à des fournisseurs externes.
  • Documentation et aide détaillées: à traverswdoc --helpObtenez plus d'informations sur la façon de l'utiliser.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...