AI个人学习
和实操指南

TF-ID:学术论文表格/图像识别工具

综合介绍

TF-ID(Table/Figure IDentifier)是一个专门用于从学术论文中提取表格和图像的对象检测模型家族。该项目由Yifei Hu创建,并在GitHub上开源。TF-ID模型经过微调,可以识别并提取学术论文中的表格和图像,支持带有或不带有标题文本的提取。该项目提供了完整的训练代码、模型权重和人工标注的数据集,所有内容均在MIT许可证下开源。

 


TF-ID:学术论文表格/图像识别工具-1

 

 

功能列表

  • 提取学术论文中的表格和图像
  • 支持带有或不带有标题文本的提取
  • 提供完整的训练代码和模型权重
  • 支持从PDF文件中提取表格和图像
  • 提供多种模型版本以适应不同需求

 

 

使用帮助

安装流程

  1. 克隆仓库:
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. 下载数据集: 从Hugging Face下载数据集并解压到相应目录。
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. 转换数据集格式:
    python coco_to_florence.py
    
  4. 训练模型:
    accelerate launch train.py
    

使用流程

  1. 提取单个图像中的表格和图像:
    python inference.py --image_path path/to/image.png
    
  2. 从PDF文件中提取所有表格和图像:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

详细操作流程

  1. 提取单个图像中的表格和图像
    • 将图像路径传递给inference.py脚本,该脚本将使用默认的TF-ID-large模型提取图像中的表格和图像。
    • 提取结果将以边界框的形式返回,标识出图像中的表格和图像位置。
  2. 从PDF文件中提取所有表格和图像
    • 将PDF文件路径传递给pdf_to_table_figures.py脚本,该脚本将提取PDF文件中的所有表格和图像,并将裁剪后的图像保存到指定的输出目录。
    • 默认使用TF-ID-large模型进行提取,可以通过修改脚本中的model_id参数切换到其他模型版本。
  3. 训练模型
    • 克隆仓库并下载数据集后,使用coco_to_florence.py脚本将数据集转换为Florence 2格式。
    • 使用accelerate launch train.py命令启动模型训练,训练过程中会保存检查点文件。
未经允许不得转载:首席AI分享圈 » TF-ID:学术论文表格/图像识别工具

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文