TF-ID: 학술 논문 양식/이미지 인식 도구

53.4K 00

일반 소개

TF-ID(표/그림 식별자)는 학술 논문에서 표와 이미지를 추출하는 데 특화된 개체 감지 모델 제품군입니다. 이 프로젝트는 Yifei Hu가 만들었으며 GitHub에서 오픈 소스화되어 있습니다. TF-ID 모델은 학술 논문에서 표와 이미지를 인식하고 추출하도록 미세 조정되어 캡션 텍스트 유무에 관계없이 추출을 지원합니다. 이 프로젝트는 완전한 학습 코드, 모델 가중치 및 수동으로 라벨링된 데이터 세트를 제공하며, 모두 MIT 라이선스에 따라 오픈 소스입니다.

기능 목록

학술 논문에서 표와 이미지 추출
헤더 텍스트 포함 또는 제외 추출 지원
완전한 트레이닝 코드 및 모델 가중치 제공
PDF 파일에서 표와 이미지 추출 지원
다양한 요구 사항에 맞는 여러 모델 버전 제공

도움말 사용

설치 프로세스

복제 창고:

git clone https://github.com/ai8hyf/TF-ID
cd TF-ID

데이터 세트 다운로드: 허깅 페이스에서 데이터 세트를 다운로드하여 적절한 디렉터리에 압축을 풉니다.

wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
unzip arxiv_paper_images.zip -d ./images

데이터 세트 형식을 변환합니다:
```
python coco_to_florence.py
```
교육 모델:
```
accelerate launch train.py
```

사용 프로세스

단일 이미지에서 표와 이미지를 추출합니다:
```
python inference.py --image_path path/to/image.png
```

PDF 파일에서 모든 표와 이미지를 추출합니다:

python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output

세부 운영 절차

단일 이미지에서 표와 이미지 추출::
- 이미지 경로를inference.py스크립트를 실행하면 기본 TF-ID-large 모델을 사용하여 이미지의 테이블과 이미지를 추출합니다.
- 추출 결과는 이미지에서 테이블과 이미지 위치를 식별하는 바운딩 박스 형태로 반환됩니다.
PDF 파일에서 모든 표와 이미지 추출::
- PDF 파일 경로를pdf_to_table_figures.py스크립트를 실행하면 PDF 파일에서 모든 표와 이미지를 추출하고 잘린 이미지를 지정된 출력 디렉터리에 저장합니다.
- 기본적으로 TF-ID-large 모델이 추출에 사용되며, 스크립트의model_id매개변수를 사용하여 다른 모델 버전으로 전환할 수 있습니다.
교육 모델::
- 리포지토리를 복제하고 데이터세트를 다운로드한 후, 리포지토리의coco_to_florence.py이 스크립트는 데이터 집합을 플로렌스 2 형식으로 변환합니다.
- 활용accelerate launch train.py명령은 모델 학습을 시작하고 학습 중에 체크포인트 파일이 저장됩니다.