Base de conocimientos RAG extracción esencial de documentos comparación de proyectos de código abierto

Base de conocimientos de IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

64.1K 00

Recientemente, estaba eligiendo un proyecto de atención al cliente inteligente para RAG Herramientas de procesamiento de datos de bases de conocimiento, sobre una nueva mirada a los actuales proyectos de procesamiento de documentos de corriente principal, incluyendo olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse las seis herramientas, y una breve comparación de ellos. Una visión global. MinerU La extracción de documentos es más general, adecuada para todo tipo de escenarios, pero las otras herramientas propuestas para documentos tienen sus propias características, por favor elija según sus propias necesidades.

olmOCR

Arquitectura técnica: Se basa en el modelo de gran lenguaje para construir un proceso completo de procesamiento de PDF. Utiliza una arquitectura distribuida para admitir el procesamiento paralelo en uno o varios nodos, y emplea sglang para lograr un razonamiento acelerado en la GPU.

Características funcionales: con capacidades de extracción de texto de alta calidad, puede extraer texto plano estructurado de PDF complejos, manejar correctamente diseños de varias columnas, tablas, ecuaciones matemáticas y contenido manuscrito. Los resultados salen en formato Markdown; cuesta unos 190 dólares procesar 1.000.000 de páginas PDF; también supera a Marker, MinerU y GOT-OCR 2.0 y otras herramientas similares.

Escenarios aplicables: digitalización de documentos académicos, conversión de repositorios documentales de empresas, construcción de conjuntos de datos de entrenamiento de IA y recuperación de contenidos de documentos históricos.

✅ Ventaja: proyecto de código abierto, alta calidad de análisis sintáctico, menor coste que las API comerciales, rendimiento excepcional.

❎ deficiencias: el uso de un umbral más alto, la necesidad de una variedad de dependencias del sistema; todavía está en las primeras etapas de desarrollo, la documentación necesita ser mejorada; actualmente sólo soporta el análisis sintáctico de PDF e imágenes.

https://github.com/allenai/olmocr

Marcador

Arquitectura técnica: basado en PyMuPDF y Tesseract OCR, soporte para aceleración GPU (motor Surya OCR), código abierto ligero.

Características: Enfoque en PDF a Markdown, soporte para fórmula a LaTeX, preservación de imágenes en línea, reconocimiento OCR de PDF escaneados, puede manejar documentos multilingües.

Escenario: para literatura de investigación científica, libros y otras necesidades básicas de conversión de PDF, adecuado para usuarios con formación técnica para una rápida implantación.

✅ Ventaja: código abierto y gratuito, gran velocidad de procesamiento (4 veces más rápido que otros similares).

🙅‍♀️ Deficiencias: falta de capacidad de análisis sintáctico de diseños complejos, dependencia de los recursos locales de la GPU.

https://github.com/VikParuchuri/marker

MinerU

Arquitectura Técnica: Integrar LayoutLMv3, YOLOv8 y otros modelos, soportar parseo multimodal (tabla/fórmula/imagen), apoyarse en entorno Docker y CUDA.

Características: Extracción precisa de texto PDF, filtrado automático encabezado/pie de página, compatibilidad con EPUB/MOBI/DOCX a Markdown o JSON, OCR multilingüe (84 idiomas), modelo UniMERNet incorporado optimizado para el reconocimiento de fórmulas.

Escenarios aplicables: aplicable a la gestión de bibliografía académica, análisis de estados financieros y otros escenarios que requieran una estructuración de alta precisión.

✅ Ventaja: cumplimiento de la seguridad de nivel empresarial con compatibilidad con API y GUI.

🙅Deficiencias: dependencia de las GPU, procesamiento de formularios más lento, configuración compleja.

https://github.com/opendatalab/MinerU

Docling

Arquitectura técnica: diseño modular, integración de Unstructured, LayoutParser y otras bibliotecas, soporte para localización.

Características: analiza PDF/DOCX/PPTX y otros formatos, conserva el orden de lectura y la estructura de las tablas, soporta OCR e integración LangChain, salida Markdown o JSON.

Escenarios aplicables: adecuado para la resolución de contratos empresariales, la automatización de informes y otras aplicaciones complejas que necesitan combinarse con el marco de IA.

✅ Ventaja: Compatible con IBM Eco y admite el procesamiento mixto multiformato.

🙅‍♀️ Insuficiente: se requiere un entorno CUDA y algunas funciones dependen de modelos comerciales.

https://github.com/DS4SD/docling

Markitdown

Arquitectura técnica: proyecto de código abierto de Microsoft, GPT - 4 integrado y otros modelos para lograr un procesamiento mejorado de la IA, compatibilidad con la conversión multiformato.

Características: Soporta Word/Excel/PPT, imagen (OCR), audio (transcripción de voz) a Markdown, procesamiento por lotes de archivos ZIP, puede generar descripciones de imágenes (requiere API OpenAI).

Escenario: adecuado para la creación de contenidos mixtos multiformato, como gráficos PPT a documentos, transcripción de audio y vídeo.

✅ Ventaja: soporte de formatos más completo, fácil de usar para desarrolladores (Python API/CLI).

🙅‍♀️ deficiencias: dependencia de API externas, algunas funciones requieren modelos de pago.

https://github.com/microsoft/markitdown

Llamaparse

Arquitectura técnica: diseñada para RAG, combina Azure OpenAI y la base de datos vectorial KDB AI para optimizar la recuperación semántica.

Características: análisis sintáctico de PDF complejos que contengan tablas/gráficos, salida de gráficos Markdown/LaTeX/Mermaid, compatibilidad con la generación de gráficos de conocimiento, cumplimiento de normas de seguridad de nivel empresarial.

Escenarios de aplicación: para análisis de documentos jurídicos, preguntas y respuestas de manuales técnicos y otras aplicaciones inteligentes que necesiten combinarse con LLM.

✅ Ventaja: gran precisión de análisis sintáctico y compatibilidad con la optimización semántica de datos semiestructurados.

🙅‍♂️ Deficiencias: velocidad de procesamiento lenta, créditos gratuitos limitados, se requiere clave API.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse