TF-ID: 학술 논문 양식/이미지 인식 도구

최신 AI 리소스11개월 전에 게시 됨 AI 공유 서클
1.9K 00

일반 소개

TF-ID(표/그림 식별자)는 학술 논문에서 표와 이미지를 추출하는 데 특화된 개체 감지 모델 제품군입니다. 이 프로젝트는 Yifei Hu가 만들었으며 GitHub에서 오픈 소스화되어 있습니다. TF-ID 모델은 학술 논문에서 표와 이미지를 인식하고 추출하도록 미세 조정되어 캡션 텍스트 유무에 관계없이 추출을 지원합니다. 이 프로젝트는 완전한 학습 코드, 모델 가중치 및 수동으로 라벨링된 데이터 세트를 제공하며, 모두 MIT 라이선스에 따라 오픈 소스입니다.

 

TF-ID:学术论文表格/图像识别工具

 

 

기능 목록

  • 학술 논문에서 표와 이미지 추출
  • 헤더 텍스트 포함 또는 제외 추출 지원
  • 완전한 트레이닝 코드 및 모델 가중치 제공
  • PDF 파일에서 표와 이미지 추출 지원
  • 다양한 요구 사항에 맞는 여러 모델 버전 제공

 

 

도움말 사용

설치 프로세스

  1. 복제 창고:
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. 데이터 세트 다운로드: 허깅 페이스에서 데이터 세트를 다운로드하여 적절한 디렉터리에 압축을 풉니다.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. 데이터 세트 형식을 변환합니다:
    python coco_to_florence.py
    
  4. 교육 모델:
    accelerate launch train.py
    

사용 프로세스

  1. 단일 이미지에서 표와 이미지를 추출합니다:
    python inference.py --image_path path/to/image.png
    
  2. PDF 파일에서 모든 표와 이미지를 추출합니다:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

세부 운영 절차

  1. 단일 이미지에서 표와 이미지 추출::
    • 이미지 경로를inference.py스크립트를 실행하면 기본 TF-ID-large 모델을 사용하여 이미지의 테이블과 이미지를 추출합니다.
    • 추출 결과는 이미지에서 테이블과 이미지 위치를 식별하는 바운딩 박스 형태로 반환됩니다.
  2. PDF 파일에서 모든 표와 이미지 추출::
    • PDF 파일 경로를pdf_to_table_figures.py스크립트를 실행하면 PDF 파일에서 모든 표와 이미지를 추출하고 잘린 이미지를 지정된 출력 디렉터리에 저장합니다.
    • 기본적으로 TF-ID-large 모델이 추출에 사용되며, 스크립트의model_id매개변수를 사용하여 다른 모델 버전으로 전환할 수 있습니다.
  3. 교육 모델::
    • 리포지토리를 복제하고 데이터세트를 다운로드한 후, 리포지토리의coco_to_florence.py이 스크립트는 데이터 집합을 플로렌스 2 형식으로 변환합니다.
    • 활용accelerate launch train.py명령은 모델 학습을 시작하고 학습 중에 체크포인트 파일이 저장됩니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...