Allgemeine Einführung
WikiChat ist ein experimenteller Chatbot, der an der Stanford University entwickelt wurde und darauf abzielt, die Faktizität großer Sprachmodelle durch den Abruf von Daten aus Wikipedia zu verbessern. Große Sprachmodelle (wie ChatGPT und GPT-4) neigen dazu, Fehler zu machen, wenn es um aktuelle Informationen oder weniger populäre Themen geht. WikiChat stellt die Genauigkeit seiner Antworten sicher, indem es Wikipedia und eine siebenstufige Pipeline verwendet. Das Projekt unterstützt mehrere Sprachen und ist in der Lage, Informationen aus strukturierten Daten wie Tabellen, Infoboxen und Listen abzurufen. WikiChat bietet außerdem hochwertige Wikipedia-Vorverarbeitungsskripte und verwendet die modernen mehrsprachigen Abfragemodelle BGE-M3 und Qdrant für skalierbare Vektorsuchen.
Funktionsliste
- Mehrsprachige UnterstützungAbrufen von Informationen aus Wikipedia in 10 verschiedenen Sprachen wird standardmäßig unterstützt.
- Verbessertes Auffinden von InformationenUnterstützung für das Abrufen von Informationen aus strukturierten Daten wie Tabellen, Infoboxen und Listen.
- Hochwertige Wikipedia-Vorverarbeitungsskripte: Verwendung des modernen mehrsprachigen Suchmodells BGE-M3.
- Kostenlose mehrsprachige Wikipedia-Such-APIBietet eine hochwertige, kostenlose (aber gebührenbegrenzte) Such-API.
- Erweiterte LLM-KompatibilitätÜber 100 LLMs werden über eine einheitliche Schnittstelle unterstützt.
- Optimierte PipelineBietet schnellere und kostengünstigere Sanitäroptionen.
- LangChain-KompatibilitätVollständig kompatibel mit LangChain.
- Bereitstellung eines MehrbenutzerzugangsBereitstellung von Code für die Bereitstellung eines einfachen Front-Ends und Back-Ends und die Verbindung zu Azure Kosmos DB-Datenbank zur Speicherung des Dialogs.
Hilfe verwenden
Ablauf der Installation
- Installieren von Abhängigkeiten::
git clone https://github.com/stanford-oval/WikiChat.git cd WikiChat conda env create --datei conda_env.yaml conda wikichat aktivieren python -m spacy herunterladen en_core_web_sm
- Installation von Docker: Folgen Sie der offiziellen Docker-Dokumentation für die Installation.
- LLM konfigurieren::
- Daten in ein Feld schreiben (auf einem Fragebogen oder Webformular)
llm_config.yaml
Die relevanten Felder in der Datei. - Erstellen Sie eine Datei mit dem Namen
API_KEYS
Datei und legen Sie den erforderlichen API-Schlüssel fest.
- Daten in ein Feld schreiben (auf einem Fragebogen oder Webformular)
- Abruf von Konfigurationsinformationen::
- Verwenden Sie die standardmäßige Wikipedia-Such-API.
- Oder laden Sie den Wikipedia-Index herunter und hosten Sie ihn.
- Oder erstellen Sie Ihren eigenen Index.
- Laufender WikiChat::
inv demo --retriever-endpoint "http://0.0.0.0:/search"
Funktion Betriebsablauf
- Mehrsprachige UnterstützungWikiChat ruft standardmäßig Informationen aus Wikipedia in 10 verschiedenen Sprachen ab, darunter Englisch, Chinesisch, Spanisch, Portugiesisch, Russisch, Deutsch, Französisch, Italienisch, Japanisch und Farsi.
- InformationsabfrageUnterstützt den Abruf von Informationen aus strukturierten Daten wie Tabellen, Infoboxen und Listen unter Verwendung des modernen mehrsprachigen Abrufmodells BGE-M3.
- Kostenlose Such-APIBietet eine hochwertige, kostenlose, mehrsprachige Wikipedia-Such-API mit Unterstützung für über 180 Millionen Vektoreinbettungen.
- Erweiterte LLM-KompatibilitätÜber 100 LLMs werden über eine einheitliche Schnittstelle unterstützt, darunter OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai und Groq Das Modell.
- Optimierung der PipelineSchnellere und kostengünstigere Pipeline-Option zur Optimierung der Leistung durch Zusammenlegung der Phasen "Generate" und "Extract Statement" von WikiChat.
- LangChain-KompatibilitätVollständig kompatibel mit LangChain und unterstützt die nahtlose Integration von mehreren LLMs.
- Bereitstellung eines MehrbenutzerzugangsBereitstellung von Code für die Bereitstellung eines einfachen Front-Ends und Back-Ends sowie für die Verbindung mit einer Azure Cosmos DB-Datenbank zum Speichern von Konversationen.