Allgemeine Einführung
Denser Chat ist ein Chatbot-Projekt, das von denser.ai entwickelt und gepflegt wird, um Text und Tabellen aus PDF-Dateien und Webseiten mit Quellcode-Hervorhebung zu extrahieren. Das Projekt unterstützt die Erstellung von Chatbots auf Basis von denser-retriever und bietet interaktive Streamlit-Chatbot-Anwendungen. Benutzer können den Chatbot schnell einsetzen und nutzen, um Fragen zu PDF- und Webinhalten mit einfacher Installation und Konfiguration zu beantworten.
Funktionsliste
- Extrahieren von Text und Tabellen aus PDF-Dateien und Webseiten
- Aufbau eines Chatbots auf Basis von Denser-Retriever
- Unterstützung für interaktive Streamlit-Chatbot-Anwendungen
- Quellcode-Hervorhebungsfunktion bereitstellen
- Unterstützt mehrere Dateiformate und URLs als Datenquellen
- Starten von Elasticsearch- und Milvus-Diensten mit Docker Compose
- Verwenden Sie OpenAI oder Claude API zur Bereitstellung von Chat-Funktionen
Hilfe verwenden
Ablauf der Installation
- Klon-Lagerhaus:
git clone https://github.com/denser-org/denser-chat.git
- Wechseln Sie in das Projektverzeichnis und starten Sie die virtuelle Umgebung (stellen Sie sicher, dass die Python-Version 3.11 ist):
cd denser-chat
python -m venv .venv
Quelle .venv/bin/activate
- Installieren Sie die erforderlichen Pakete:
pip install -e .
Oder verwenden Sie Poesie:
Poesie installieren
Schnellstart
- Bevor Sie die Indizes erstellen, führen Sie Docker Compose aus, um die Dienste Elasticsearch und Milvus zu starten:
cd denser_chat
docker compose up -d
- Aufbau eines Chatbot-Index:
python build.py sources.txt output test_index
wobei der erste Parameter die Datei ist, die zur Erstellung des Chatbots verwendet wird, d.h. eine lokale PDF-Datei, eine URL-PDF-Datei oder eine URL. Der zweite Parameter ist das Ausgabeverzeichnis, und der dritte Parameter ist der Indexname.
- Starten Sie den lokalen Server, um PDF-Dienste bereitzustellen:
python -m http.server 8000
- Starten Sie die Streamlit-Anwendung:
cd denser_chat
streamlit run demo.py -- --index_name test_index
Verwendungsfunktionen
- Text und Tabellen extrahierenLaden Sie eine PDF-Datei hoch oder geben Sie die URL einer Webseite ein, und Denser Chat extrahiert automatisch den Text- und Tabelleninhalt daraus.
- Quellcode-HervorhebungWährend des Chats hebt Denser Chat den relevanten Quellcode in der PDF-Datei hervor, damit er leicht zu sehen und zu verstehen ist.
- interaktiver ChatDurch die Konfiguration von OpenAI oder Claude API-Schlüsseln können Nutzer mit Chatbots interagieren, um genaue Antworten zu erhalten.
Detaillierte Vorgehensweise
- Hochladen von DateienAuswahl und Hochladen einer PDF-Datei in der Anwendungsschnittstelle oder Eingabe einer Webseiten-URL.
- Fragen stellenFragen in das Chat-Fenster eingeben, z. B. "Was ist eine negative Probenahme innerhalb einer Charge? oder "Welche Teile haben Stoppstifte?". .
- Ergebnisse anzeigenDenser Chat liefert Antworten mit Hervorhebungen, so dass die Nutzer schnell relevante Inhalte finden können.