Docling: soporte para una variedad de formatos de análisis sintáctico de documentos y exportación como Markdown y JSON, soporte PDF OCR

Introducción general

Docling es una potente herramienta de análisis y exportación de documentos compatible con una amplia gama de formatos, como PDF, DOCX, PPTX, XLSX, imágenes, HTML, AsciiDoc y Markdown. Docling analiza y exporta estos documentos a formatos HTML, Markdown y JSON, y permite incrustar y referenciar imágenes. Docling proporciona una comprensión avanzada de los documentos PDF, incluido el análisis sintáctico del diseño de página, el orden de lectura y la estructura de tablas. Docling es fácil de integrar y admite la integración con las potentes aplicaciones RAG/QA de LlamaIndex y LangChain, proporcionando una interfaz de línea de comandos (CLI) sencilla y cómoda.

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

 

Lista de funciones

  • Analiza múltiples formatos de documento (PDF, DOCX, PPTX, XLSX, Imagen, HTML, AsciiDoc, Markdown)
  • Exportación a formatos HTML, Markdown y JSON
  • Comprensión avanzada de documentos PDF (diseño de páginas, orden de lectura, estructura de tablas)
  • Admite tecnología OCR para analizar PDF escaneados
  • Proporciona un formato unificado de representación de DoclingDocument.
  • Fácil integración con LlamaIndex y LangChain
  • Interfaz de línea de comandos (CLI) sencilla y cómoda

 

Utilizar la ayuda

Proceso de instalación

Para utilizar Docling, basta con instalarlo desde un gestor de paquetes, por ejemplo, mediante pip:

pip install docling

Docling está disponible para entornos macOS, Linux y Windows y es compatible con arquitecturas x86_64 y arm64. Encontrará instrucciones detalladas de instalación en la documentación oficial.

Normas de uso

Convertir un solo documento

Para convertir documentos individuales, puede utilizar la función convert() Métodos, por ejemplo:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

Uso avanzado

Docling ofrece un amplio conjunto de opciones de uso avanzadas que pueden configurarse y ampliarse según sea necesario. Encontrará instrucciones detalladas y ejemplos en la documentación oficial.

Función Flujo de operaciones

  1. resolución de documentosImportar un documento a Docling y utilizar el analizador incorporado para analizar el contenido del documento.
  2. conversión de formato: Seleccione el formato que desea exportar (HTML, Markdown, JSON) y utilice la función de exportación correspondiente para convertir el formato.
  3. Análisis OCRPara documentos PDF escaneados, active la función OCR para extraer el contenido de texto del documento.
  4. aplicación integradaIntegre Docling con LlamaIndex o LangChain para crear potentes aplicaciones RAG/QA.
  5. operación desde la línea de comandosUtiliza las herramientas CLI proporcionadas por Docling para realizar rápidamente operaciones de análisis sintáctico y exportación de documentos.

Las funciones de análisis sintáctico y exportación de documentos de Docling son potentes y fáciles de usar para una amplia gama de necesidades de procesamiento de documentos. Los usuarios pueden iniciarse rápidamente y sacar el máximo partido de las funciones de Docling con documentación oficial detallada y ejemplos.

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...