WikiChat : un outil de chat pour la recherche de connaissances à partir des données de Wikipedia
Introduction générale
WikiChat est un chatbot expérimental développé à l'université de Stanford qui vise à améliorer la factualité des grands modèles de langage en récupérant des données de Wikipédia. Les grands modèles de langage (tels que ChatGPT et GPT-4) ont tendance à commettre des erreurs lorsqu'ils traitent d'informations récentes ou de sujets moins populaires. WikiChat garantit l'exactitude de ses réponses en utilisant Wikipédia et un pipeline en sept étapes. WikiChat fournit également des scripts de prétraitement de Wikipédia de haute qualité et utilise les modèles de recherche multilingues de pointe BGE-M3 et Qdrant pour des recherches vectorielles évolutives.

Liste des fonctions
- Prise en charge multilingueLa recherche d'informations sur Wikipédia dans 10 langues différentes est prise en charge par défaut.
- Amélioration de la recherche d'informationsLes données structurées : support pour l'extraction d'informations à partir de données structurées telles que les tableaux, les infobox et les listes.
- Scripts de prétraitement de Wikipédia de haute qualité: Utilisation du modèle de recherche multilingue de pointe BGE-M3.
- API de recherche multilingue gratuite sur Wikipédia: Fournit une API de recherche de haute qualité, gratuite (mais à taux limité).
- Compatibilité LLM étenduePlus de 100 LLM sont pris en charge par le biais d'une interface unifiée.
- Pipeline optimiséLes services de plomberie : Ils offrent des options plus rapides et plus rentables en matière de plomberie.
- Compatibilité LangChainLes logiciels d'aide à la décision : Entièrement compatible avec LangChain.
- Déploiement de l'accès multi-utilisateursLes services d'assistance à la clientèle : Fournir du code pour déployer un front-end et un back-end simples et pour se connecter à Azure. Cosmos Base de données DB pour stocker le dialogue.
Utiliser l'aide
Processus d'installation
- Installation des dépendances: :
git clone https://github.com/stanford-oval/WikiChat.git cd WikiChat conda env create --file conda_env.yaml conda activate wikichat python -m spacy download en_core_web_sm
- Installation de DockerPour l'installation, suivez la documentation officielle de Docker.
- Configuration du LLM: :
- écrire des données dans une case (sur un questionnaire ou un formulaire web)
llm_config.yaml
Les champs pertinents du fichier. - Créer un fichier nommé
API_KEYS
et définir la clé API requise.
- écrire des données dans une case (sur un questionnaire ou un formulaire web)
- Recherche d'informations sur la configuration: :
- Utiliser l'API de recherche par défaut de Wikipédia.
- Ou téléchargez et hébergez l'index de Wikipédia.
- Ou créez votre propre index.
- Fonctionnement de WikiChat: :
inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"
Fonction Opération Déroulement
- Prise en charge multilingueWikiChat : WikiChat récupère des informations de Wikipedia dans 10 langues différentes par défaut, dont l'anglais, le chinois, l'espagnol, le portugais, le russe, l'allemand, le français, l'italien, le japonais et le farsi.
- recherche d'informationsLe modèle de recherche multilingue BGE-M3 permet d'extraire des informations à partir de données structurées telles que des tableaux, des infobox et des listes, en utilisant le modèle de recherche multilingue de pointe.
- API de recherche gratuiteWikipedia : fournit une API de recherche de haute qualité, gratuite et multilingue sur Wikipédia, avec la prise en charge de plus de 180 millions d'éléments vectoriels.
- Compatibilité LLM étenduePlus de 100 LLM sont pris en charge par une interface unifiée, y compris OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai, et Groq Le modèle.
- Optimiser le pipelineWikiChat : fournir une option de pipeline plus rapide et plus rentable afin d'optimiser les performances en fusionnant les phases "Generate" et "Extract Statement" de WikiChat.
- Compatibilité LangChainLe logiciel est entièrement compatible avec LangChain et permet l'intégration transparente de plusieurs modules de gestion de l'apprentissage.
- Déploiement de l'accès multi-utilisateursLes utilisateurs de la base de données Azure Cosmos DB ont besoin d'un code pour déployer un front-end et un back-end simples, et se connecter à une base de données Azure Cosmos DB pour stocker les conversations.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...