はじめに
それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、PDFを検索可能なテキストにスキャンすることができます。Docker上で動作し、視覚モデル(Vision Grid Transformer、VGT)とLightGBMモデルの2つのモデルを提供します。前者は高精度だがリソースを消費し、後者は高速で省資源である。現在のバージョンはv0.0.21で、無料でGitHubで公開されており、PDFを扱う必要がある研究者やアーキビストなどに適している。
機能一覧
- PDFページ内のテキスト、タイトル、画像、表、数式、その他の要素を自動的に識別します。
- 検索可能なテキストにスキャンしたPDFを変換するOCR機能をサポートしています。
- ページ要素の正しい読み順を決める
- ビジュアルモデル(VGT)とLightGBMモデルの2つの解析モードが用意されている。
- テーブルを抽出し、Markdown、LaTeX、HTMLなどの複数の出力形式をサポートします。
- 数式を抽出し、デフォルトではLaTeX形式で出力します。
- 英語、韓国語などの多言語OCRをサポート。
- 他のプロジェクトに統合するためのAPIインターフェースを提供。
- ビジュアル出力をサポートし、注釈付きPDFを生成します。
ヘルプの使用
設置プロセス
このツールはDockerで動作し、インストール手順は以下の通り:
- 環境を整える
まずDockerをインストールする。Dockerのウェブサイトからダウンロードしてインストールする。インストールが終わったら、ターミナルで
docker --version
バージョン番号が表示されれば成功です。GPUを使用する場合は、NVIDIA Container Toolkitもインストールする必要があります。インストレーション・ガイド.
- プルミラー
ターミナルでコマンドを入力し、ツール画像を取り出します:
- GPUがある:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- GPUはない:
docker pull huridocs/pdf-document-layout-analysis:v0.0.21
- 運営サービス
サービスを開始するには2つの方法がある:
- GPUがある:
docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
- GPUはない:
docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
サービスが開始すると、デフォルトではポート5060でリッスンする。このポートが占有されている場合は、5061などの別のポートに変更することができる。
- バリデーションサービス
ブラウザを開き、次のサイトにアクセスする。http://localhost:5060/info
バージョン情報が返されれば、正常に動作していることを意味する。
主な機能の使い方
このツールは、以下の共通機能を持つAPIを通じて動作する:
1.OCR機能
スキャンしたPDFを検索可能なテキストに変換するには、OCRを使用することができます。
- 手続き::
次のようなPDFを用意する。test.pdf
ターミナルで実行する:
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf
language=en
は英語で、次のように置き換えることができる。kor
(韓国語)など。対応言語はcurl localhost:5060/info
眺める。/path/to/test.pdf
はファイルパスである。/home/user/test.pdf
.- 出力ファイル
result.pdf
はカレント・ディレクトリに保存される。 - 結局::
コピー可能なテキストを含む検索可能なPDFを取得します。
2.レイアウト分析
PDFから要素を抽出し、レイアウトを分析する:
- 手続き::
走っている:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json
- 出力ファイル
analysis.json
位置、タイプ(テキスト、表など)などの要素情報を含む。 - 結局::
JSONファイルには、各要素の詳細が記載されている。
3.ラピッドモード
より高速な処理が必要な場合は、LightGBM モデルを使用し、パラメータを追加します。fast=true
::
curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json
- 銘記する速いけど、精度は少し落ちる。
4.表と式の抽出
- 退会フォーム::
フォーマットを指定する(例:Markdown):
curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json
アジュバントmarkdown
そしてlatex
そしてhtml
フォーマット
- 抽出式::
デフォルトの出力はLaTeX形式で、レイアウト解析コマンドで直接使用できます。
5.ビジュアル出力
注釈付きPDFを見たい:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf
- 結局::
出力PDFには、各要素の位置とタイプがラベル付けされます。
6.言語サポートの追加
デフォルトでサポートされている言語が少ないので、もっと多くの言語(例えば中国語)を追加したい:
- コンテナに入る:
docker exec -it --user root pdf-analysis /bin/bash
- 中国語などの言語パックをインストールする:
apt-get install tesseract-ocr-chi-sim
- チェックする:
curl localhost:5060/info
さあchi_sim
成功を示す。
7.サービスの中止
サービスの中止:
docker stop pdf-analysis
出力要素の順序
分析結果は特定の順序で表示される。このツールは、Popplerを使用して最初の読み取り順序を決定し、その後、要素タイプに応じて調整されます:
- ヘッダーはページの一番上にあり、内部順にソートされている。
- 共通の要素(テキスト、表など)は、平均的な読み順に並べられている。
- フッターと脚注は最後に置かれる。
- テキストを持たない要素(画像など)は、テキストを持つ最も近い要素の順序に従って並べられる。
ほら
- ハードウェア要件lightGBMはCPUのみで、2GBのRAMが必要です。
- テンポ学術論文15ページ、高速モードで0.42秒/ページ、VGT(GPU)で1.75秒/ページ、VGT(CPU)で13.5秒/ページ。
- テスト中にコンポーネントを調整する何か問題が起きたときにログを見ることができます:
docker logs pdf-analysis
これらの機能と手順は、PDFの様々なニーズに対応し、素早く使い始めるのに役立ちます。
アプリケーションシナリオ
- 学術研究
研究者が論文から表や数式を抽出し、データをより効率的に整理するために使用する。 - ファイル管理
アーキビストは、古い文書のスキャンを検索しやすいPDFに変換する。 - 法務
弁護士は契約書のPDFを分析し、条項や書式を素早く探し出す。
品質保証
- 有料ですか?
無料です。これはオープンソースのツールで、GitHubから無料でダウンロードして使用できる。 - ネットワークは必要か?
画像のダウンロードにはインターネット接続が必要です。 - 中国語に対応していますか?
サポート中国語パッケージの手動インストールが必要(例tesseract-ocr-chi-sim
英語よりは若干劣るが、使える。