AI Personal Learning
and practical guidance

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

General Introduction

Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导出为 HTML、Markdown 和 JSON 格式,支持嵌入和引用图像。Docling 提供了高级的 PDF 文档理解功能,包括页面布局、阅读顺序和表格结构的解析。它还支持 OCR 技术,用于扫描 PDF 文档。Docling 易于集成,支持与 LlamaIndex 和 LangChain 的强大 RAG/QA 应用集成,提供简单方便的命令行界面(CLI)。

Docling:支持多种格式文档解析并导出为Markdown和JSON,支持多种格式-1


 

Function List

  • 解析多种文档格式(PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc、Markdown)
  • 导出为 HTML、Markdown 和 JSON 格式
  • 高级 PDF 文档理解(页面布局、阅读顺序、表格结构)
  • 支持 OCR 技术,解析扫描 PDF
  • 提供统一的 DoclingDocument 表示格式
  • 易于与 LlamaIndex 和 LangChain 集成
  • 简单方便的命令行界面(CLI)

 

Using Help

Installation process

要使用 Docling,只需从包管理器安装 docling,例如使用 pip:

pip install docling

Docling 适用于 macOS、Linux 和 Windows 环境,支持 x86_64 和 arm64 架构。详细的安装说明可以在官方文档中找到。

Guidelines for use

转换单个文档

要转换单个文档,可以使用 convert() 方法,例如:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

高级用法

Docling 提供了丰富的高级用法选项,用户可以根据需要进行配置和扩展。详细的使用说明和示例可以在官方文档中找到。

Functional operation flow

  1. document resolution:将文档导入 Docling,使用内置的解析器解析文档内容。
  2. format conversion:选择需要导出的格式(HTML、Markdown、JSON),使用相应的导出功能进行格式转换。
  3. OCR 解析:对于扫描的 PDF 文档,启用 OCR 功能,提取文档中的文本内容。
  4. integrated application:将 Docling 与 LlamaIndex 或 LangChain 集成,构建强大的 RAG/QA 应用。
  5. 命令行操作:使用 Docling 提供的 CLI 工具,快速执行文档解析和导出操作。

Docling 的文档解析和导出功能强大且易用,适合各种文档处理需求。用户可以通过详细的官方文档和示例,快速上手并充分利用 Docling 的全部功能。

AI Easy Learning

The layman's guide to getting started with AI

Help you learn how to utilize AI tools at a low cost and from a zero base.AI, like office software, is an essential skill for everyone. Mastering AI will give you an edge in your job search and half the effort in your future work and studies.

View Details>
May not be reproduced without permission:Chief AI Sharing Circle " Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

Chief AI Sharing Circle

Chief AI Sharing Circle specializes in AI learning, providing comprehensive AI learning content, AI tools and hands-on guidance. Our goal is to help users master AI technology and explore the unlimited potential of AI together through high-quality content and practical experience sharing. Whether you are an AI beginner or a senior expert, this is the ideal place for you to gain knowledge, improve your skills and realize innovation.

Contact Us
en_USEnglish