はじめに
GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同提案のオープンソース光学式文字認識(OCR)モデルです。このモデルは、プレーンテキスト認識、フォーマットされたテキスト認識、細かいOCR、マルチクロップOCR、およびマルチページOCRを含む、幅広いOCRタスクをサポートしています。GOT-OCR2.0は、複雑なOCRアプリケーションシナリオの広い範囲のための汎用性と効率的なソリューションを提供することを目標に設計されています。
QWen2 0.5 Bモデルに基づく。OCR 2.0と呼ばれる、580Mのパラメータを持つエンドツーエンドのOCRモデルは、0.972のBLEUスコアを得た。オンライン体験アドレス:https://huggingface.co/spaces/ucaslcl/GOT_online
機能一覧
- プレーンテキスト認識:画像内のプレーンテキストコンテンツを認識します。
- 書式付きテキストの認識:表や段落などのテキストの書式情報を認識し、保持します。
- きめ細かなOCR:画像内の細かいテキストや複雑な背景のテキストを認識します。
- マルチクロップOCR:画像の複数クロップをサポートし、各クロップ領域のテキストを認識します。
- 複数ページのOCR:複数ページのドキュメントのOCRをサポートします。
ヘルプの使用
設置プロセス
- プロジェクトコードをクローンする:
ギット クローン https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd GOT-OCR2.0
- 仮想環境を作成し、起動する:
conda create -n got python=3.10 -y conda activate got
- プロジェクトの依存関係をインストールします:
pip install -e .
- フラッシュ・アテンションをインストールする:
pip install ninja pip install flash-attn --ビルド分離なし
GOTモデルの重みの取得
使用プロセス
- 入力データの準備: OCRする画像または文書を指定された入力ディレクトリに置きます。
- OCRモデルを実行する:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --。タイプ OCR
- 出力の表示:OCR処理されたテキストは、指定された出力ディレクトリに保存され、ユーザーは必要に応じてさらに処理することができます。
機能
- プレーンテキスト認識簡単なテキスト抽出タスクに適しています。
- 書式付きテキスト認識文書の元の書式を保持する必要があるシナリオでは、テキストを認識しながら、表や段落などの書式情報を保持します。
- きめ細かなOCR高精度な文字抽出を必要とするシーンに最適。
- マルチクロップOCR画像を複数回切り抜き、切り抜き領域ごとにテキストを認識する。
- マルチページOCR長い文書や複数ページのPDFファイルを処理する場合に適しています。
以上の手順により、ユーザーは様々な OCR タスクのために GOT-OCR2.0 モデルを簡単にインストールし、使用することができます。このモデルは、様々なシナリオにおけるOCRのニーズを満たすことができる豊富な機能モジュールのセットを提供します。