Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

100K 00

はじめに

Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む、幅広いドキュメントフォーマットをサポートする、パワフルなドキュメント解析およびエクスポートツールです。Doclingはこれらのドキュメントを解析し、HTML、MarkdownおよびJSONフォーマットへエクスポートします。Doclingは、ページレイアウト、読み順、表構造の解析を含む、高度なPDF文書理解を提供します。Doclingは統合が簡単で、LlamaIndexおよびLangChainの強力なRAG/QAアプリケーションとの統合をサポートし、シンプルで便利なコマンドラインインターフェース（CLI）を提供します。

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

機能一覧

複数のドキュメント形式を解析（PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDoc、Markdown）
HTML、Markdown、JSONフォーマットへのエクスポート
高度なPDF文書理解（ページレイアウト、読み順、表構造）
スキャンしたPDFを解析するOCR技術をサポート
統一された DoclingDocument 表現形式を提供します。
LlamaIndexおよびLangChainとの容易な統合
シンプルで便利なコマンドラインインターフェイス(CLI)

ヘルプの使用

設置プロセス

Doclingを使用するには、pipなどを使用してパッケージ・マネージャーからdoclingをインストールするだけです：

pip install docling

DoclingはmacOS、LinuxおよびWindows環境で利用可能で、x86_64およびarm64アーキテクチャをサポートしています。詳細なインストール手順は、公式ドキュメントをご覧ください。

使用ガイドライン

単一文書の変換

個々の文書を変換するには convert() 例えばメソッドだ：

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

高度な使用法

Doclingは、必要に応じて設定および拡張できる、高度な使用オプションの豊富なセットを提供します。詳しい説明と例は、公式文書にあります。

機能操作の流れ

文書解像度ドキュメントをDoclingにインポートし、組み込みのパーサーを使ってドキュメントの内容を解析します。
フォーマット変換エクスポートするフォーマット（HTML、Markdown、JSON）を選択し、対応するエクスポート機能を使ってフォーマットを変換します。
OCR分析スキャンしたPDF文書の場合は、OCR機能を有効にして、文書内のテキストコンテンツを抽出します。
統合アプリケーションDoclingとLlamaIndexまたはLangChainを統合して、強力なRAG/QAアプリケーションを構築できます。
コマンドライン操作Doclingが提供するCLIツールを使用して、ドキュメントの解析およびエクスポート操作を素早く実行できます。

Doclingの文書解析およびエクスポート機能は、強力かつ使いやすく、幅広い文書処理のニーズに対応します。詳細な公式文書とサンプルにより、ユーザーはすぐに使い始めることができ、Doclingの機能をフルに活用することができます。