AIパーソナル・ラーニング
と実践的なガイダンス

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

はじめに

Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导出为 HTML、Markdown 和 JSON 格式,支持嵌入和引用图像。Docling 提供了高级的 PDF 文档理解功能,包括页面布局、阅读顺序和表格结构的解析。它还支持 OCR 技术,用于扫描 PDF 文档。Docling 易于集成,支持与 LlamaIndex 和 LangChain 的强大 RAG/QA 应用集成,提供简单方便的命令行界面(CLI)。

Docling:支持多种格式文档解析并导出为Markdown和JSON,支持多种格式-1


 

機能一覧

  • 解析多种文档格式(PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc、Markdown)
  • 导出为 HTML、Markdown 和 JSON 格式
  • 高级 PDF 文档理解(页面布局、阅读顺序、表格结构)
  • 支持 OCR 技术,解析扫描 PDF
  • 提供统一的 DoclingDocument 表示格式
  • 易于与 LlamaIndex 和 LangChain 集成
  • 简单方便的命令行界面(CLI)

 

ヘルプの使用

設置プロセス

要使用 Docling,只需从包管理器安装 docling,例如使用 pip:

pip install docling

Docling 适用于 macOS、Linux 和 Windows 环境,支持 x86_64 和 arm64 架构。详细的安装说明可以在官方文档中找到。

使用ガイドライン

转换单个文档

要转换单个文档,可以使用 convert() 方法,例如:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

高级用法

Docling 提供了丰富的高级用法选项,用户可以根据需要进行配置和扩展。详细的使用说明和示例可以在官方文档中找到。

機能 操作の流れ

  1. 文書解像度:将文档导入 Docling,使用内置的解析器解析文档内容。
  2. フォーマット変換:选择需要导出的格式(HTML、Markdown、JSON),使用相应的导出功能进行格式转换。
  3. OCR 解析:对于扫描的 PDF 文档,启用 OCR 功能,提取文档中的文本内容。
  4. 統合アプリケーション:将 Docling 与 LlamaIndex 或 LangChain 集成,构建强大的 RAG/QA 应用。
  5. 命令行操作:使用 Docling 提供的 CLI 工具,快速执行文档解析和导出操作。

Docling 的文档解析和导出功能强大且易用,适合各种文档处理需求。用户可以通过详细的官方文档和示例,快速上手并充分利用 Docling 的全部功能。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語