GOT-OCR2.0：QWen2 0.5Bに基づくエンドツーエンド・マルチモーダルOCRモデル-チーフAIシェアリングサークル

はじめに

GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同提案のオープンソース光学式文字認識（OCR）モデルです。このモデルは、プレーンテキスト認識、フォーマットされたテキスト認識、細かいOCR、マルチクロップOCR、およびマルチページOCRを含む、幅広いOCRタスクをサポートしています。GOT-OCR2.0は、複雑なOCRアプリケーションシナリオの広い範囲のための汎用性と効率的なソリューションを提供することを目標に設計されています。

QWen2 0.5 Bモデルに基づく。OCR 2.0と呼ばれる、580Mのパラメータを持つエンドツーエンドのOCRモデルは、0.972のBLEUスコアを得た。オンライン体験アドレス：https://huggingface.co/spaces/ucaslcl/GOT_online

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

機能一覧

プレーンテキスト認識：画像内のプレーンテキストコンテンツを認識します。
書式付きテキストの認識：表や段落などのテキストの書式情報を認識し、保持します。
きめ細かなOCR：画像内の細かいテキストや複雑な背景のテキストを認識します。
マルチクロップOCR：画像の複数クロップをサポートし、各クロップ領域のテキストを認識します。
複数ページのOCR：複数ページのドキュメントのOCRをサポートします。

ヘルプの使用

設置プロセス

プロジェクトコードをクローンする：

ギット クローン https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

仮想環境を作成し、起動する：

conda create -n got python=3.10 -y
conda activate got

プロジェクトの依存関係をインストールします：
```
pip install -e .
```

フラッシュ・アテンションをインストールする：

pip install ninja
pip install flash-attn --ビルド分離なし

GOTモデルの重みの取得

使用プロセス

入力データの準備： OCRする画像または文書を指定された入力ディレクトリに置きます。

OCRモデルを実行する：

python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --。タイプ OCR

出力の表示：OCR処理されたテキストは、指定された出力ディレクトリに保存され、ユーザーは必要に応じてさらに処理することができます。

機能

プレーンテキスト認識簡単なテキスト抽出タスクに適しています。
書式付きテキスト認識文書の元の書式を保持する必要があるシナリオでは、テキストを認識しながら、表や段落などの書式情報を保持します。
きめ細かなOCR高精度な文字抽出を必要とするシーンに最適。
マルチクロップOCR画像を複数回切り抜き、切り抜き領域ごとにテキストを認識する。
マルチページOCR長い文書や複数ページのPDFファイルを処理する場合に適しています。

以上の手順により、ユーザーは様々な OCR タスクのために GOT-OCR2.0 モデルを簡単にインストールし、使用することができます。このモデルは、様々なシナリオにおけるOCRのニーズを満たすことができる豊富な機能モジュールのセットを提供します。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

はじめに

機能一覧

ヘルプの使用

設置プロセス

GOTモデルの重みの取得

使用プロセス

機能

関連記事

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。

Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

PaddleOCR: Flying Paddleベースの多言語OCRツールライブラリ。

おすすめ

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

新着情報

人気記事

ホットタグ

チーフAIシェアリングサークル