wdoc: recuperar contenidos y resumir conocimientos a partir de documentos masivos de múltiples fuentes

Introducción general

wdoc es un potente sistema RAG (Retrieval Augmentation Generation) diseñado para procesar y analizar documentos grandes y diversos. Es capaz de recuperar a partir de una amplia gama de tipos de documentos, incluidos PDF, páginas web, vídeos de YouTube, archivos de audio, etc. wdoc es especialmente adecuado para procesar grandes cantidades de fuentes de información, lo que lo convierte en una herramienta ideal para investigadores, estudiantes y profesionales que necesiten trabajar con grandes cantidades de información. El sistema utiliza la biblioteca LangChain para el procesamiento de documentos, es compatible con una amplia gama de proveedores LLM (Large Language Model) y ofrece funciones de recuperación y resumen de gran precisión. wdoc sigue en constante desarrollo, por lo que los comentarios de los usuarios y las peticiones de funciones son bienvenidos.

wdoc:从海量、多源文档中检索内容并总结知识

 

Lista de funciones

  • Compatibilidad con varios tipos de archivos: Admite más de 15 tipos de archivos, incluidos PDF, páginas web, vídeos de YouTube, archivos de audio y mucho más.
  • Recuperación y resumen de alta precisión: Proporciona recuperación y resumen de documentos de gran precisión mediante búsqueda integrada y procesamiento semántico por lotes.
  • Soporte Multi-LLM: Se admiten varios proveedores de LLM, incluidos modelos locales y modelos privados con capas de seguridad adicionales.
  • Funciones RAG avanzadasLLM débil: se utiliza para filtrar documentos irrelevantes, y LLM fuerte para proporcionar respuestas precisas y fusionar respuestas mediante agrupación y clasificación semántica.
  • Fácil de ampliar: No es sólo una herramienta, sino también una biblioteca que permite a los usuarios utilizar wdoc en otros proyectos Python.
  • Documentación y ayuda detalladas: Se proporciona abundante documentación e información de ayuda para que los usuarios puedan empezar a trabajar rápidamente.

 

Utilizar la ayuda

montaje

wdoc requiere actualmente la versión 3.11 de Python para funcionar. Asegúrese de que dispone de la versión correcta de Python y siga los pasos que se indican a continuación para instalarlo:

  1. Utilice pip para instalar:
    pip install -U wdoc
  1. o instalar una rama git específica:
    pip install git+https://github.com/thiswillbeyourgithub/wdoc@dev
    
  2. Se recomienda instalar el soporte para pdftotext y fasttext:
    pip install -U wdoc[pdftotext] wdoc[fasttext]
    

utilizar

  1. Añada la clave API necesaria como variable de entorno:
    export OPENAI_API_KEY="您的API密钥"
    
  2. Iniciar wdoc:
    wdoc --task=query --path=您的文档路径
    

Función Flujo de operaciones

Búsqueda de documentos

Utilice wdoc para consultar el contenido de un documento:

wdoc --task=query --path=您的文档路径 --filetype=pdf --query="查询内容"

El comando cargará el archivo PDF desde la ruta especificada, lo recuperará según la consulta y devolverá los documentos pertinentes.

Resumen de la documentación

Utilice wdoc para resumir el documento:

wdoc --task=summarize --path=您的文档路径 --filetype=pdf

El comando resumirá la ruta especificada al archivo PDF y devolverá un resumen detallado del contenido del documento.

Tareas combinadas

También puede combinar tareas de consulta y resumen:

wdoc --task=summarize_then_query --path=您的文档路径 --filetype=pdf

Este comando resumirá primero el contenido del documento y luego le permitirá hacer más consultas sobre el resumen.

Funciones avanzadas

wdoc admite diversas funciones avanzadas, como:

  • Compatibilidad con varios tipos de archivosCarga múltiples tipos de ficheros mediante rutas recursivas, ficheros enlazados, etc.
  • Funciones RAG avanzadas: Mejorar la precisión de la recuperación mediante técnicas como la búsqueda multiconsulta y el procesamiento semántico por lotes.
  • Ayudas locales y privadas para LLMGarantía de que los datos están seguros y no se filtran a proveedores externos.
  • Documentación y ayuda detalladas: a través dewdoc --helpMás información sobre cómo utilizarlo.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...