WikiChat : un outil de chat pour la recherche de connaissances à partir des données de Wikipedia

Introduction générale

WikiChat est un chatbot expérimental développé à l'université de Stanford qui vise à améliorer la factualité des grands modèles de langage en récupérant des données de Wikipédia. Les grands modèles de langage (tels que ChatGPT et GPT-4) ont tendance à commettre des erreurs lorsqu'ils traitent d'informations récentes ou de sujets moins populaires. WikiChat garantit l'exactitude de ses réponses en utilisant Wikipédia et un pipeline en sept étapes. WikiChat fournit également des scripts de prétraitement de Wikipédia de haute qualité et utilise les modèles de recherche multilingues de pointe BGE-M3 et Qdrant pour des recherches vectorielles évolutives.

WikiChat:使用维基百科数据检索知识的聊天工具

 

Liste des fonctions

  • Prise en charge multilingueLa recherche d'informations sur Wikipédia dans 10 langues différentes est prise en charge par défaut.
  • Amélioration de la recherche d'informationsLes données structurées : support pour l'extraction d'informations à partir de données structurées telles que les tableaux, les infobox et les listes.
  • Scripts de prétraitement de Wikipédia de haute qualité: Utilisation du modèle de recherche multilingue de pointe BGE-M3.
  • API de recherche multilingue gratuite sur Wikipédia: Fournit une API de recherche de haute qualité, gratuite (mais à taux limité).
  • Compatibilité LLM étenduePlus de 100 LLM sont pris en charge par le biais d'une interface unifiée.
  • Pipeline optimiséLes services de plomberie : Ils offrent des options plus rapides et plus rentables en matière de plomberie.
  • Compatibilité LangChainLes logiciels d'aide à la décision : Entièrement compatible avec LangChain.
  • Déploiement de l'accès multi-utilisateursLes services d'assistance à la clientèle : Fournir du code pour déployer un front-end et un back-end simples et pour se connecter à Azure. Cosmos Base de données DB pour stocker le dialogue.

 

Utiliser l'aide

Processus d'installation

  1. Installation des dépendances: :
    git clone https://github.com/stanford-oval/WikiChat.git
    cd WikiChat
    conda env create --file conda_env.yaml
    conda activate wikichat
    python -m spacy download en_core_web_sm
    
  2. Installation de DockerPour l'installation, suivez la documentation officielle de Docker.
  3. Configuration du LLM: :
    • écrire des données dans une case (sur un questionnaire ou un formulaire web) llm_config.yaml Les champs pertinents du fichier.
    • Créer un fichier nommé API_KEYS et définir la clé API requise.
  4. Recherche d'informations sur la configuration: :
    • Utiliser l'API de recherche par défaut de Wikipédia.
    • Ou téléchargez et hébergez l'index de Wikipédia.
    • Ou créez votre propre index.
  5. Fonctionnement de WikiChat: :
    inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"
    

Fonction Opération Déroulement

  1. Prise en charge multilingueWikiChat : WikiChat récupère des informations de Wikipedia dans 10 langues différentes par défaut, dont l'anglais, le chinois, l'espagnol, le portugais, le russe, l'allemand, le français, l'italien, le japonais et le farsi.
  2. recherche d'informationsLe modèle de recherche multilingue BGE-M3 permet d'extraire des informations à partir de données structurées telles que des tableaux, des infobox et des listes, en utilisant le modèle de recherche multilingue de pointe.
  3. API de recherche gratuiteWikipedia : fournit une API de recherche de haute qualité, gratuite et multilingue sur Wikipédia, avec la prise en charge de plus de 180 millions d'éléments vectoriels.
  4. Compatibilité LLM étenduePlus de 100 LLM sont pris en charge par une interface unifiée, y compris OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai, et Groq Le modèle.
  5. Optimiser le pipelineWikiChat : fournir une option de pipeline plus rapide et plus rentable afin d'optimiser les performances en fusionnant les phases "Generate" et "Extract Statement" de WikiChat.
  6. Compatibilité LangChainLe logiciel est entièrement compatible avec LangChain et permet l'intégration transparente de plusieurs modules de gestion de l'apprentissage.
  7. Déploiement de l'accès multi-utilisateursLes utilisateurs de la base de données Azure Cosmos DB ont besoin d'un code pour déployer un front-end et un back-end simples, et se connecter à une base de données Azure Cosmos DB pour stocker les conversations.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...