AIパーソナル・ラーニング
と実践的なガイダンス

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

はじめに

ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)は、視覚的にガイドされた生成的なテキストレイアウトの事前学習モデルを通じて、ドキュメントインテリジェンス処理を強化することを目的としたオープンソースプロジェクトです。このプロジェクトはVeason-silverbulletチームによって開発され、NAACL 2024で発表されました。OCRテキストをローカライズして認識することができるViTLPモデルは、事前に訓練されたViTLP-medium(380M)チェックポイントを提供し、Huggingface上でユーザーがアクセスすることができます。このプロジェクトのコードとモデルの重みはGitHubで公開されており、文書画像のOCR処理とテキストレイアウト生成をサポートしています。

ViTLP: 構造化データを抽出するためのPDFドキュメントのOCR認識, ViTLPは、テキストレイアウトを生成するためのオープンソースの視覚ガイド付き事前学習モデルです。


 

機能一覧

  • OCRテキストローカリゼーションと認識ViTLPモデルは、効率的なOCRテキストのローカライズと認識を可能にします。
  • 事前学習モデルViTLP-medium(380M)の事前学習チェックポイントが用意されており、直接使用することも、ユーザーが微調整することもできます。
  • 文書画像処理文書画像のアップロードとOCR処理をサポート。
  • モデリングの微調整OCRデータセットとVQAデータセットに対する後続のトレーニングをサポートする微調整ツールを提供します。
  • 文書作成ツールポジショニングボックスのメタデータを持つ文書合成ツールを提供。

 

ヘルプの使用

設置プロセス

  1. ViTLPプロジェクトのコードをクローンする:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. 依存関係をインストールします:
   pip install -r requirements.txt
  1. トレーニング前のチェックポイントをダウンロード
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

使用プロセス

  1. OCRテキスト認識::
    • OCRスクリプトを実行する:
     python ocr.py
    
    • 文書画像をアップロードすると、モデルが自動的にOCR処理を実行し、結果を出力します。
  2. モデリングの微調整::
    • 協議./ファインチューニングの指示ファイルを、OCRデータセットとVQAデータセットに対する後続のトレーニングのためのディレクトリに置く。
    • 文書合成ツールを使って、ポジショニングボックスのメタデータを持つ合成文書を生成し、モデル学習を強化する。
  3. バッチ・デコード::
    • バッチデコードスクリプトを使用する: バッシュ
      バッシュ decode.sh
    • スクリプトは文書画像をバッチ処理し、OCR結果を出力する。

詳細な機能操作

  • OCRテキストローカリゼーションと認識文書画像をアップロードすると、モデルは自動的にテキスト領域を検出・認識し、テキストの内容と位置情報を出力します。
  • モデリングの微調整ユーザーは、提供される微調整ツールを使用して、データセットの要件に従ってモデルをさらに訓練し、特定のシナリオで認識結果を向上させることができます。
  • 文書作成ツール合成ツールによってポジショニングボックスのメタデータを持つ文書を生成し、学習中のモデルがテキストのレイアウトや構造をより理解しやすくする。
無断転載を禁じます:チーフAIシェアリングサークル " ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語