Denser Chat : Interagir avec les fichiers PDF, mettre en évidence le code source

Introduction générale

Denser Chat est un projet de chatbot développé et maintenu par denser.ai pour extraire du texte et des tableaux à partir de fichiers PDF et de pages web avec mise en évidence du code source. Le projet permet de construire des chatbots basés sur denser-retriever et fournit des applications interactives de chatbot Streamlit. Les utilisateurs peuvent rapidement déployer et utiliser le chatbot pour répondre à des questions liées au contenu PDF et web avec une installation et une configuration simples.

Denser Chat:与PDF文件互动,提供源代码高亮显示

 

Liste des fonctions

  • Extraire du texte et des tableaux de fichiers PDF et de pages web
  • Construire un chatbot basé sur denser-retriever
  • Prise en charge des applications interactives de chatbot Streamlit
  • Fournir une fonction de mise en évidence du code source
  • Prise en charge de plusieurs formats de fichiers et d'URL en tant que sources de données
  • Démarrer les services Elasticsearch et Milvus avec Docker Compose
  • Utiliser OpenAI ou Claude API pour fournir une fonctionnalité de chat

 

Utiliser l'aide

Processus d'installation

  1. Entrepôt de clonage :
   git clone https://github.com/denser-org/denser-chat.git
  1. Allez dans le répertoire du projet et démarrez l'environnement virtuel (assurez-vous que la version de Python est 3.11) :
   cd denser-chat
python -m venv .venv
source .venv/bin/activate
  1. Installez les paquets nécessaires :
   pip install -e .

Ou utilisez la poésie :

   poetry install

Démarrage rapide

  1. Avant de construire les index, exécutez Docker Compose pour démarrer les services Elasticsearch et Milvus :
   cd denser_chat
docker compose up -d
  1. Construire un index des chatbots :
   python build.py sources.txt output test_index

où le premier paramètre est le fichier utilisé pour construire le chatbot, qui peut être un fichier PDF local, un PDF URL ou une URL. le deuxième paramètre est le répertoire de sortie, et le troisième paramètre est le nom de l'index.

  1. Démarrer le serveur local pour fournir des services PDF :
   python -m http.server 8000
  1. Lancer l'application Streamlit :
   cd denser_chat
streamlit run demo.py -- --index_name test_index

Fonctions d'utilisation

  • Extraire du texte et des tableauxDenser Chat : Téléchargez un fichier PDF ou entrez l'URL d'une page web, et Denser Chat en extraira automatiquement le texte et le contenu des tableaux.
  • Mise en évidence du code sourcePendant le chat, Denser Chat met en évidence le code source pertinent dans le fichier PDF pour faciliter la visualisation et la compréhension.
  • chat interactifLes utilisateurs peuvent interagir avec les chatbots pour obtenir des réponses précises en configurant OpenAI ou en utilisant les clés API de Claude.

Procédure d'utilisation détaillée

  1. Téléchargement de fichiersSélectionnez et téléchargez un fichier PDF dans l'interface de l'application, ou saisissez l'URL d'une page web.
  2. poser des questionsLes questions : Tapez des questions dans la fenêtre de chat, telles que "Qu'est-ce que l'échantillonnage négatif au sein d'un lot ? ou "Quelles sont les pièces qui ont des goupilles d'arrêt ?". .
  3. Voir les résultatsLe chat plus dense renvoie les réponses en les surlignant, ce qui permet aux utilisateurs de trouver rapidement le contenu qui les intéresse.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...