GOT-OCR2.0: QWen2 0.5B 엔드투엔드 멀티모달 OCR 모델 기반

최신 AI 리소스11개월 전 업데이트 AI 공유 서클
2.1K 00

일반 소개

GOT-OCR2.0은 스텝스타가 공동 제안한 오픈 소스 광학 문자 인식(OCR) 모델로, 통합된 엔드투엔드 모델을 통해 OCR 기술을 OCR-2.0으로 발전시키는 것을 목표로 합니다. 이 모델은 일반 텍스트 인식, 서식 있는 텍스트 인식, 세분화된 OCR, 다중 자르기 OCR, 다중 페이지 OCR 등 광범위한 OCR 작업을 지원합니다. GOT-OCR2.0은 다양하고 복잡한 OCR 애플리케이션 시나리오를 위한 다목적의 효율적인 솔루션을 제공하는 것을 목표로 설계되었습니다.

QWen2 0.5 B 모델 기준. OCR 2.0이라고 불리는 5억 8천만 개의 매개변수가 있는 엔드투엔드 OCR 모델은 0.972의 BLEU 점수를 받았습니다. 온라인 체험 주소: https://huggingface.co/spaces/ucaslcl/GOT_online

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

 

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

 

 

기능 목록

  • 일반 텍스트 인식: 이미지의 일반 텍스트 콘텐츠를 인식합니다.
  • 서식 있는 텍스트 인식: 표, 단락 등과 같은 텍스트의 서식 정보를 인식하고 유지합니다.
  • 세분화된 OCR: 복잡한 배경의 이미지와 텍스트의 미세한 텍스트를 인식합니다.
  • 다중 자르기 OCR: 이미지의 다중 자르기를 지원하며 자른 각 영역의 텍스트를 인식합니다.
  • 다중 페이지 OCR: 다중 페이지 문서의 OCR을 지원합니다.

 

 

도움말 사용

설치 프로세스

  1. 프로젝트 코드를 복제합니다:
    git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
    cd GOT-OCR2.0
    
  2. 가상 환경을 만들고 활성화합니다:
    conda create -n got python=3.10 -y
    conda activate got
    
  3. 프로젝트 종속성을 설치합니다:
    pip install -e .
    
  4. Flash-Attention을 설치합니다:
    pip install ninja
    pip install flash-attn --no-build-isolation
    

GOT 모델 가중치 얻기

사용 프로세스

  1. 입력 데이터 준비: OCR할 이미지 또는 문서를 지정된 입력 디렉터리에 넣습니다.
  2. OCR 모델을 실행합니다:
    python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
    
  3. 출력 보기: OCR 처리된 텍스트는 지정된 출력 디렉터리에 저장되며, 사용자는 필요에 따라 추가로 처리할 수 있습니다.

기능

  • 일반 텍스트 인식간단한 텍스트 추출 작업에 적합한 이미지의 일반 텍스트 콘텐츠를 인식하여 일반 텍스트 파일로 출력합니다.
  • 서식 있는 텍스트 인식문서의 원래 서식을 보존해야 하는 시나리오를 위해 표, 단락 등의 서식 정보를 보존하면서 텍스트를 인식합니다.
  • 세분화된 OCR복잡한 배경의 미세한 텍스트를 인식하여 고정밀 텍스트 추출이 필요한 장면에 적합합니다.
  • 다중 작물 OCR이미지를 여러 번 자르고 자른 각 영역의 텍스트를 인식하여 이미지의 다중 영역 인식이 필요한 시나리오에 적합합니다.
  • 다중 페이지 OCR여러 페이지 문서의 OCR을 지원하여 긴 문서나 여러 페이지의 PDF 파일을 처리하는 시나리오에 적합합니다.

위의 단계를 통해 사용자는 다양한 OCR 작업에 GOT-OCR2.0 모델을 쉽게 설치하고 사용할 수 있습니다. 이 모델은 다양한 시나리오에서 OCR 요구 사항을 충족할 수 있는 풍부한 기능 모듈 세트를 제공합니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...