Docling: soporte para una variedad de formatos de análisis sintáctico de documentos y exportación como Markdown y JSON, soporte PDF OCR
Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial 3.1K 00
Introducción general
Docling es una potente herramienta de análisis y exportación de documentos compatible con una amplia gama de formatos, como PDF, DOCX, PPTX, XLSX, imágenes, HTML, AsciiDoc y Markdown. Docling analiza y exporta estos documentos a formatos HTML, Markdown y JSON, y permite incrustar y referenciar imágenes. Docling proporciona una comprensión avanzada de los documentos PDF, incluido el análisis sintáctico del diseño de página, el orden de lectura y la estructura de tablas. Docling es fácil de integrar y admite la integración con las potentes aplicaciones RAG/QA de LlamaIndex y LangChain, proporcionando una interfaz de línea de comandos (CLI) sencilla y cómoda.

Lista de funciones
- Analiza múltiples formatos de documento (PDF, DOCX, PPTX, XLSX, Imagen, HTML, AsciiDoc, Markdown)
- Exportación a formatos HTML, Markdown y JSON
- Comprensión avanzada de documentos PDF (diseño de páginas, orden de lectura, estructura de tablas)
- Admite tecnología OCR para analizar PDF escaneados
- Proporciona un formato unificado de representación de DoclingDocument.
- Fácil integración con LlamaIndex y LangChain
- Interfaz de línea de comandos (CLI) sencilla y cómoda
Utilizar la ayuda
Proceso de instalación
Para utilizar Docling, basta con instalarlo desde un gestor de paquetes, por ejemplo, mediante pip:
pip install docling
Docling está disponible para entornos macOS, Linux y Windows y es compatible con arquitecturas x86_64 y arm64. Encontrará instrucciones detalladas de instalación en la documentación oficial.
Normas de uso
Convertir un solo documento
Para convertir documentos individuales, puede utilizar la función convert()
Métodos, por ejemplo:
from docling.document_converter import DocumentConverter
source = "path/to/document.pdf" # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出转换后的 Markdown 格式文档
Uso avanzado
Docling ofrece un amplio conjunto de opciones de uso avanzadas que pueden configurarse y ampliarse según sea necesario. Encontrará instrucciones detalladas y ejemplos en la documentación oficial.
Función Flujo de operaciones
- resolución de documentosImportar un documento a Docling y utilizar el analizador incorporado para analizar el contenido del documento.
- conversión de formato: Seleccione el formato que desea exportar (HTML, Markdown, JSON) y utilice la función de exportación correspondiente para convertir el formato.
- Análisis OCRPara documentos PDF escaneados, active la función OCR para extraer el contenido de texto del documento.
- aplicación integradaIntegre Docling con LlamaIndex o LangChain para crear potentes aplicaciones RAG/QA.
- operación desde la línea de comandosUtiliza las herramientas CLI proporcionadas por Docling para realizar rápidamente operaciones de análisis sintáctico y exportación de documentos.
Las funciones de análisis sintáctico y exportación de documentos de Docling son potentes y fáciles de usar para una amplia gama de necesidades de procesamiento de documentos. Los usuarios pueden iniciarse rápidamente y sacar el máximo partido de las funciones de Docling con documentación oficial detallada y ejemplos.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...