AIパーソナル・ラーニング
と実践的なガイダンス

TF-ID:学術論文フォーム/画像認識ツール

はじめに

TF-ID (Table/Figure IDentifier)は、学術論文から表や画像を抽出するためのオブジェクト検出モデル群です。TF-IDモデルは、学術論文から表や画像を認識・抽出するために微調整されており、キャプションテキストの有無に関わらず抽出をサポートします。このプロジェクトでは、完全な学習コード、モデルの重み、手動でラベル付けされたデータセットを提供しており、すべてMITライセンスの下でオープンソース化されています。

 


TF-ID:学術論文フォーム/画像認識ツール-1

 

 

機能一覧

  • 学術論文から表や画像を抽出
  • ヘッダーテキストの有無にかかわらず抽出をサポート
  • 完全なトレーニングコードとモデルの重みを提供する
  • PDFファイルからの表と画像の抽出をサポート
  • さまざまなニーズに合わせて複数のモデルバージョンを用意

 

 

ヘルプの使用

設置プロセス

  1. クローン倉庫
    ギット クローン https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. データセットのダウンロード: Hugging Faceからデータセットをダウンロードし、適切なディレクトリに解凍する。
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./画像
    
  3. データセット形式を変換する:
    python coco_to_florence.py
    
  4. トレーニングモデル:
    起動列車を加速する.py
    

使用プロセス

  1. 1枚の画像から表と画像を抽出します:
    python inference.py --image_path path/to/image.png
    
  2. PDFファイルからすべての表と画像を抽出します:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./サンプル出力
    

詳しい操作手順

  1. 1枚の画像から表と画像を抽出::
    • 画像パスを推論.pyスクリプトは、デフォルトのTF-ID-largeモデルを使用して、画像内のテーブルと画像を抽出します。
    • 抽出結果は、画像内の表と画像の位置を特定するバウンディングボックスの形で返されます。
  2. PDFファイルからすべての表と画像を抽出::
    • PDFファイルのパスをpdf_to_table_figures.pyスクリプトは、PDFファイルからすべての表と画像を抽出し、指定された出力ディレクトリに切り取られた画像を保存します。
    • デフォルトでは、TF-ID-largeモデルが抽出に使用されるが、これはスクリプトのモデルIDパラメータを使用して、別のモデルのバージョンに切り替えることができます。
  3. トレーニングモデル::
    • リポジトリをクローンし、データセットをダウンロードしたらcoco_to_florence.pyスクリプトはデータセットをフローレンス2フォーマットに変換する。
    • 利用する起動列車を加速する.pyコマンドを実行するとモデルのトレーニングが開始され、トレーニング中にチェックポイントファイルが保存されます。
無断転載を禁じます:チーフAIシェアリングサークル " TF-ID:学術論文フォーム/画像認識ツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語