AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

Docling:様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

はじめに

Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む、幅広いドキュメントフォーマットをサポートする、パワフルなドキュメント解析およびエクスポートツールです。Doclingはこれらのドキュメントを解析し、HTML、MarkdownおよびJSONフォーマットへエクスポートします。Doclingは、ページレイアウト、読み順、表構造の解析を含む、高度なPDF文書理解を提供します。Doclingは統合が簡単で、LlamaIndexおよびLangChainの強力なRAG/QAアプリケーションとの統合をサポートし、シンプルで便利なコマンドラインインターフェース(CLI)を提供します。

Docling:支持多种格式文档解析并导出为Markdown和JSON,支持多种格式-1


 

機能一覧

  • 複数のドキュメント形式を解析(PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDoc、Markdown)
  • HTML、Markdown、JSONフォーマットへのエクスポート
  • 高度なPDF文書理解(ページレイアウト、読み順、表構造)
  • スキャンしたPDFを解析するOCR技術をサポート
  • 統一された DoclingDocument 表現形式を提供します。
  • LlamaIndexおよびLangChainとの容易な統合
  • シンプルで便利なコマンドラインインターフェイス(CLI)

 

ヘルプの使用

設置プロセス

Doclingを使用するには、pipなどを使用してパッケージ・マネージャーからdoclingをインストールするだけです:

pip install docling

DoclingはmacOS、LinuxおよびWindows環境で利用可能で、x86_64およびarm64アーキテクチャをサポートしています。詳細なインストール手順は、公式ドキュメントをご覧ください。

使用ガイドライン

単一文書の変換

個々の文書を変換するには convert() 例えばメソッドだ:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

高度な使用法

Doclingは、必要に応じて設定および拡張できる、高度な使用オプションの豊富なセットを提供します。詳しい説明と例は、公式文書にあります。

機能 操作の流れ

  1. 文書解像度ドキュメントをDoclingにインポートし、組み込みのパーサーを使ってドキュメントの内容を解析します。
  2. フォーマット変換エクスポートするフォーマット(HTML、Markdown、JSON)を選択し、対応するエクスポート機能を使ってフォーマットを変換します。
  3. OCR分析スキャンしたPDF文書の場合は、OCR機能を有効にして、文書内のテキストコンテンツを抽出します。
  4. 統合アプリケーションDoclingとLlamaIndexまたはLangChainを統合して、強力なRAG/QAアプリケーションを構築できます。
  5. コマンドライン操作Doclingが提供するCLIツールを使用して、ドキュメントの解析およびエクスポート操作を素早く実行できます。

Doclingの文書解析およびエクスポート機能は、強力かつ使いやすく、幅広い文書処理のニーズに対応します。詳細な公式文書とサンプルにより、ユーザーはすぐに使い始めることができ、Doclingの機能をフルに活用することができます。

無断転載を禁じます:チーフAIシェアリングサークル " Docling:様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR
ja日本語