WikiChat: una herramienta de chat para recuperar conocimientos a partir de datos de Wikipedia

Introducción general

WikiChat es un chatbot experimental desarrollado en la Universidad de Stanford que pretende mejorar la veracidad de los grandes modelos lingüísticos recuperando datos de Wikipedia. Los grandes modelos lingüísticos (como ChatGPT y GPT-4) tienden a cometer errores cuando tratan información actualizada o temas menos populares.WikiChat garantiza la exactitud de sus respuestas utilizando Wikipedia y un pipeline de siete etapas. El proyecto admite varios idiomas y es capaz de recuperar información de datos estructurados como tablas, infoboxes y listas. WikiChat también proporciona scripts de preprocesamiento de Wikipedia de alta calidad y utiliza los modelos de recuperación multilingüe más avanzados, BGE-M3 y Qdrant, para realizar búsquedas vectoriales escalables.

WikiChat:使用维基百科数据检索知识的聊天工具

 

Lista de funciones

  • Soporte multilingüe: La recuperación de información de Wikipedia en 10 idiomas diferentes está soportada por defecto.
  • Mejora de la recuperación de informaciónSoporte para recuperar información de datos estructurados como tablas, infoboxes y listas.
  • Scripts de preprocesamiento de Wikipedia de alta calidad: Utilización del modelo de búsqueda multilingüe de última generación BGE-M3.
  • API gratuita de búsqueda multilingüe en Wikipedia: Proporciona una API de búsqueda gratuita (pero de tarifa limitada) de alta calidad.
  • Compatibilidad LLM ampliada: Se admiten más de 100 LLM a través de una interfaz unificada.
  • Canalización optimizada: Proporciona opciones de fontanería más rápidas y rentables.
  • Compatibilidad con LangChain: Totalmente compatible con LangChain.
  • Acceso multiusuarioProporcionar código para desplegar front-end y back-end simples y conectarse a Azure. Cosmos Base de datos DB para almacenar el diálogo.

 

Utilizar la ayuda

Proceso de instalación

  1. Instalación de dependencias::
    git clone https://github.com/stanford-oval/WikiChat.git
    cd WikiChat
    conda env create --file conda_env.yaml
    conda activate wikichat
    python -m spacy download en_core_web_sm
    
  2. Instalación de Docker: Siga la documentación oficial de Docker para la instalación.
  3. Configuración de LLM::
    • escribir datos en una casilla (en un cuestionario o formulario web) llm_config.yaml Los campos relevantes del fichero.
    • Cree un archivo llamado API_KEYS y establezca la clave de API necesaria.
  4. Recuperación de información sobre la configuración::
    • Utiliza la API de búsqueda de Wikipedia por defecto.
    • O descarga y aloja el índice de Wikipedia.
    • O construya su propio índice.
  5. Ejecutar WikiChat::
    inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"
    

Función Flujo de operaciones

  1. Soporte multilingüeWikiChat: WikiChat recupera información de Wikipedia en 10 idiomas diferentes por defecto, incluyendo inglés, chino, español, portugués, ruso, alemán, francés, italiano, japonés y farsi.
  2. recuperación de informaciónPermite recuperar información a partir de datos estructurados, como tablas, infoboxes y listas, utilizando el modelo de recuperación multilingüe de última generación BGE-M3.
  3. API de búsqueda gratuita: Proporciona una API de búsqueda en Wikipedia de alta calidad, gratuita y multilingüe con soporte para más de 180M de incrustaciones vectoriales.
  4. Compatibilidad LLM ampliadaMás de 100 LLMs son compatibles a través de una interfaz unificada, incluyendo OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai, and Groq El modelo.
  5. Optimización de la cadena de producciónWikiChat: Proporciona una opción de canalización más rápida y rentable para optimizar el rendimiento mediante la fusión de las fases "Generar" y "Extraer declaración" de WikiChat.
  6. Compatibilidad con LangChain: Totalmente compatible con LangChain y admite la integración sin fisuras de múltiples LLM.
  7. Acceso multiusuarioProporcionar código para desplegar un sencillo front-end y back-end, y conectarse a una base de datos Azure Cosmos DB para almacenar conversaciones.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...