WikiChat: ein Chat-Tool zum Abrufen von Wissen anhand von Wikipedia-Daten

Neueste AI-RessourcenGeschrieben vor 7 Monaten AI-Austauschkreis

1.5K 00

Allgemeine Einführung

WikiChat ist ein experimenteller Chatbot, der an der Stanford University entwickelt wurde und darauf abzielt, die Faktizität großer Sprachmodelle durch den Abruf von Daten aus Wikipedia zu verbessern. Große Sprachmodelle (wie ChatGPT und GPT-4) neigen dazu, Fehler zu machen, wenn es um aktuelle Informationen oder weniger populäre Themen geht. WikiChat stellt die Genauigkeit seiner Antworten sicher, indem es Wikipedia und eine siebenstufige Pipeline verwendet. Das Projekt unterstützt mehrere Sprachen und ist in der Lage, Informationen aus strukturierten Daten wie Tabellen, Infoboxen und Listen abzurufen. WikiChat bietet außerdem hochwertige Wikipedia-Vorverarbeitungsskripte und verwendet die modernen mehrsprachigen Abfragemodelle BGE-M3 und Qdrant für skalierbare Vektorsuchen.

Funktionsliste

Unterstützung mehrerer SprachenAbrufen von Informationen aus Wikipedia in 10 verschiedenen Sprachen wird standardmäßig unterstützt.
Verbessertes Auffinden von InformationenUnterstützung für das Abrufen von Informationen aus strukturierten Daten wie Tabellen, Infoboxen und Listen.
Hochwertige Wikipedia-Vorverarbeitungsskripte: Verwendung des modernen mehrsprachigen Suchmodells BGE-M3.
Kostenlose mehrsprachige Wikipedia-Such-APIBietet eine hochwertige, kostenlose (aber gebührenbegrenzte) Such-API.
Erweiterte LLM-KompatibilitätÜber 100 LLMs werden über eine einheitliche Schnittstelle unterstützt.
Optimierte PipelineBietet schnellere und kostengünstigere Sanitäroptionen.
LangChain-KompatibilitätVollständig kompatibel mit LangChain.
Bereitstellung eines MehrbenutzerzugangsBereitstellung von Code für die Bereitstellung eines einfachen Front-Ends und Back-Ends und die Verbindung zu Azure Kosmos DB-Datenbank zur Speicherung des Dialogs.

Hilfe verwenden

Einbauverfahren

Installieren von Abhängigkeiten::

git clone https://github.com/stanford-oval/WikiChat.git
cd WikiChat
conda env create --file conda_env.yaml
conda activate wikichat
python -m spacy download en_core_web_sm

Installation von Docker: Folgen Sie der offiziellen Docker-Dokumentation für die Installation.
LLM konfigurieren::
- Daten in ein Feld schreiben (auf einem Fragebogen oder Webformular) llm_config.yaml Die relevanten Felder in der Datei.
- Erstellen Sie eine Datei mit dem Namen API_KEYS Datei und legen Sie den erforderlichen API-Schlüssel fest.
Abruf von Konfigurationsinformationen::
- Verwenden Sie die standardmäßige Wikipedia-Such-API.
- Oder laden Sie den Wikipedia-Index herunter und hosten Sie ihn.
- Oder erstellen Sie Ihren eigenen Index.

Laufender WikiChat::

inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"

Funktion Betriebsablauf

Unterstützung mehrerer SprachenWikiChat ruft standardmäßig Informationen aus Wikipedia in 10 verschiedenen Sprachen ab, darunter Englisch, Chinesisch, Spanisch, Portugiesisch, Russisch, Deutsch, Französisch, Italienisch, Japanisch und Farsi.
InformationsabfrageUnterstützt den Abruf von Informationen aus strukturierten Daten wie Tabellen, Infoboxen und Listen unter Verwendung des modernen mehrsprachigen Abrufmodells BGE-M3.
Kostenlose Such-APIBietet eine hochwertige, kostenlose, mehrsprachige Wikipedia-Such-API mit Unterstützung für über 180 Millionen Vektoreinbettungen.
Erweiterte LLM-KompatibilitätÜber 100 LLMs werden über eine einheitliche Schnittstelle unterstützt, darunter OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai und Groq Das Modell.
Optimierung der PipelineSchnellere und kostengünstigere Pipeline-Option zur Optimierung der Leistung durch Zusammenlegung der Phasen "Generate" und "Extract Statement" von WikiChat.
LangChain-KompatibilitätVollständig kompatibel mit LangChain und unterstützt die nahtlose Integration von mehreren LLMs.
Bereitstellung eines MehrbenutzerzugangsBereitstellung von Code für die Bereitstellung eines einfachen Front-Ends und Back-Ends sowie für die Verbindung mit einer Azure Cosmos DB-Datenbank zum Speichern von Konversationen.