AIパーソナル・ラーニング
と実践的なガイダンス

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

はじめに

GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同提案のオープンソース光学式文字認識(OCR)モデルです。このモデルは、プレーンテキスト認識、フォーマットされたテキスト認識、細かいOCR、マルチクロップOCR、およびマルチページOCRを含む、幅広いOCRタスクをサポートしています。GOT-OCR2.0は、複雑なOCRアプリケーションシナリオの広い範囲のための汎用性と効率的なソリューションを提供することを目標に設計されています。

QWen2 0.5 Bモデルに基づく。OCR 2.0と呼ばれる、580Mのパラメータを持つエンドツーエンドのOCRモデルは、0.972のBLEUスコアを得た。オンライン体験アドレス:https://huggingface.co/spaces/ucaslcl/GOT_online


 

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

 

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

 

 

機能一覧

  • プレーンテキスト認識:画像内のプレーンテキストコンテンツを認識します。
  • 書式付きテキストの認識:表や段落などのテキストの書式情報を認識し、保持します。
  • きめ細かなOCR:画像内の細かいテキストや複雑な背景のテキストを認識します。
  • マルチクロップOCR:画像の複数クロップをサポートし、各クロップ領域のテキストを認識します。
  • 複数ページのOCR:複数ページのドキュメントのOCRをサポートします。

 

 

ヘルプの使用

設置プロセス

  1. プロジェクトコードをクローンする:
    ギット クローン https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. 仮想環境を作成し、起動する:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. プロジェクトの依存関係をインストールします:
    pip install -e .
    
  4. フラッシュ・アテンションをインストールする:
    pip install ninja
    pip install flash-attn --ビルド分離なし
    

GOTモデルの重みの取得

使用プロセス

  1. 入力データの準備: OCRする画像または文書を指定された入力ディレクトリに置きます。
  2. OCRモデルを実行する:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --。タイプ OCR
    
  3. 出力の表示:OCR処理されたテキストは、指定された出力ディレクトリに保存され、ユーザーは必要に応じてさらに処理することができます。

機能

  • プレーンテキスト認識簡単なテキスト抽出タスクに適しています。
  • 書式付きテキスト認識文書の元の書式を保持する必要があるシナリオでは、テキストを認識しながら、表や段落などの書式情報を保持します。
  • きめ細かなOCR高精度な文字抽出を必要とするシーンに最適。
  • マルチクロップOCR画像を複数回切り抜き、切り抜き領域ごとにテキストを認識する。
  • マルチページOCR長い文書や複数ページのPDFファイルを処理する場合に適しています。

以上の手順により、ユーザーは様々な OCR タスクのために GOT-OCR2.0 モデルを簡単にインストールし、使用することができます。このモデルは、様々なシナリオにおけるOCRのニーズを満たすことができる豊富な機能モジュールのセットを提供します。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語