일반 소개
TF-ID(표/그림 식별자)는 학술 논문에서 표와 이미지를 추출하는 데 특화된 개체 감지 모델 제품군입니다. 이 프로젝트는 Yifei Hu가 만들었으며 GitHub에서 오픈 소스화되어 있습니다. TF-ID 모델은 학술 논문에서 표와 이미지를 인식하고 추출하도록 미세 조정되어 캡션 텍스트 유무에 관계없이 추출을 지원합니다. 이 프로젝트는 완전한 학습 코드, 모델 가중치 및 수동으로 라벨링된 데이터 세트를 제공하며, 모두 MIT 라이선스에 따라 오픈 소스입니다.

기능 목록
- 학술 논문에서 표와 이미지 추출
- 헤더 텍스트 포함 또는 제외 추출 지원
- 완전한 트레이닝 코드 및 모델 가중치 제공
- PDF 파일에서 표와 이미지 추출 지원
- 다양한 요구 사항에 맞는 여러 모델 버전 제공
도움말 사용
설치 프로세스
- 복제 창고:
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- 데이터 세트 다운로드: 허깅 페이스에서 데이터 세트를 다운로드하여 적절한 디렉터리에 압축을 풉니다.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d ./images
- 데이터 세트 형식을 변환합니다:
python coco_to_florence.py
- 교육 모델:
accelerate launch train.py
사용 프로세스
- 단일 이미지에서 표와 이미지를 추출합니다:
python inference.py --image_path path/to/image.png
- PDF 파일에서 모든 표와 이미지를 추출합니다:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
세부 운영 절차
- 단일 이미지에서 표와 이미지 추출::
- 이미지 경로를
inference.py
스크립트를 실행하면 기본 TF-ID-large 모델을 사용하여 이미지의 테이블과 이미지를 추출합니다. - 추출 결과는 이미지에서 테이블과 이미지 위치를 식별하는 바운딩 박스 형태로 반환됩니다.
- 이미지 경로를
- PDF 파일에서 모든 표와 이미지 추출::
- PDF 파일 경로를
pdf_to_table_figures.py
스크립트를 실행하면 PDF 파일에서 모든 표와 이미지를 추출하고 잘린 이미지를 지정된 출력 디렉터리에 저장합니다. - 기본적으로 TF-ID-large 모델이 추출에 사용되며, 스크립트의
model_id
매개변수를 사용하여 다른 모델 버전으로 전환할 수 있습니다.
- PDF 파일 경로를
- 교육 모델::
- 리포지토리를 복제하고 데이터세트를 다운로드한 후, 리포지토리의
coco_to_florence.py
이 스크립트는 데이터 집합을 플로렌스 2 형식으로 변환합니다. - 활용
accelerate launch train.py
명령은 모델 학습을 시작하고 학습 중에 체크포인트 파일이 저장됩니다.
- 리포지토리를 복제하고 데이터세트를 다운로드한 후, 리포지토리의
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...