AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

TF-ID:学術論文フォーム/画像認識ツール

はじめに

TF-ID (Table/Figure IDentifier)は、学術論文から表や画像を抽出するためのオブジェクト検出モデル群です。TF-IDモデルは、学術論文から表や画像を認識・抽出するために微調整されており、キャプションテキストの有無に関わらず抽出をサポートします。このプロジェクトでは、完全な学習コード、モデルの重み、手動でラベル付けされたデータセットを提供しており、すべてMITライセンスの下でオープンソース化されています。

 


TF-ID:学术论文表格/图像识别工具-1

 

 

機能一覧

  • 学術論文から表や画像を抽出
  • ヘッダーテキストの有無にかかわらず抽出をサポート
  • 完全なトレーニングコードとモデルの重みを提供する
  • PDFファイルからの表と画像の抽出をサポート
  • さまざまなニーズに合わせて複数のモデルバージョンを用意

 

 

ヘルプの使用

設置プロセス

  1. クローン倉庫
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. データセットのダウンロード: Hugging Faceからデータセットをダウンロードし、適切なディレクトリに解凍する。
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. データセット形式を変換する:
    python coco_to_florence.py
    
  4. トレーニングモデル:
    accelerate launch train.py
    

使用プロセス

  1. 1枚の画像から表と画像を抽出します:
    python inference.py --image_path path/to/image.png
    
  2. PDFファイルからすべての表と画像を抽出します:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

詳しい操作手順

  1. 1枚の画像から表と画像を抽出::
    • 画像パスをinference.pyスクリプトは、デフォルトのTF-ID-largeモデルを使用して、画像内のテーブルと画像を抽出します。
    • 抽出結果は、画像内の表と画像の位置を特定するバウンディングボックスの形で返されます。
  2. PDFファイルからすべての表と画像を抽出::
    • PDFファイルのパスをpdf_to_table_figures.pyスクリプトは、PDFファイルからすべての表と画像を抽出し、指定された出力ディレクトリに切り取られた画像を保存します。
    • デフォルトでは、TF-ID-largeモデルが抽出に使用されるが、これはスクリプトのmodel_idパラメータを使用して、別のモデルのバージョンに切り替えることができます。
  3. トレーニングモデル::
    • リポジトリをクローンし、データセットをダウンロードしたらcoco_to_florence.pyスクリプトはデータセットをフローレンス2フォーマットに変換する。
    • 利用するaccelerate launch train.pyコマンドを実行するとモデルのトレーニングが開始され、トレーニング中にチェックポイントファイルが保存されます。
無断転載を禁じます:チーフAIシェアリングサークル " TF-ID:学術論文フォーム/画像認識ツール
ja日本語