综合介绍
TF-ID(Table/Figure IDentifier)是一个专门用于从学术论文中提取表格和图像的对象检测模型家族。该项目由Yifei Hu创建,并在GitHub上开源。TF-ID模型经过微调,可以识别并提取学术论文中的表格和图像,支持带有或不带有标题文本的提取。该项目提供了完整的训练代码、模型权重和人工标注的数据集,所有内容均在MIT许可证下开源。
功能列表
- 提取学术论文中的表格和图像
- 支持带有或不带有标题文本的提取
- 提供完整的训练代码和模型权重
- 支持从PDF文件中提取表格和图像
- 提供多种模型版本以适应不同需求
使用帮助
安装流程
- 克隆仓库:
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- 下载数据集: 从Hugging Face下载数据集并解压到相应目录。
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d ./images
- 转换数据集格式:
python coco_to_florence.py
- 训练模型:
accelerate launch train.py
使用流程
- 提取单个图像中的表格和图像:
python inference.py --image_path path/to/image.png
- 从PDF文件中提取所有表格和图像:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
详细操作流程
- 提取单个图像中的表格和图像:
- 将图像路径传递给
inference.py
脚本,该脚本将使用默认的TF-ID-large模型提取图像中的表格和图像。 - 提取结果将以边界框的形式返回,标识出图像中的表格和图像位置。
- 将图像路径传递给
- 从PDF文件中提取所有表格和图像:
- 将PDF文件路径传递给
pdf_to_table_figures.py
脚本,该脚本将提取PDF文件中的所有表格和图像,并将裁剪后的图像保存到指定的输出目录。 - 默认使用TF-ID-large模型进行提取,可以通过修改脚本中的
model_id
参数切换到其他模型版本。
- 将PDF文件路径传递给
- 训练模型:
- 克隆仓库并下载数据集后,使用
coco_to_florence.py
脚本将数据集转换为Florence 2格式。 - 使用
accelerate launch train.py
命令启动模型训练,训练过程中会保存检查点文件。
- 克隆仓库并下载数据集后,使用