일반 소개
GOT-OCR2.0은 스텝스타가 공동 제안한 오픈 소스 광학 문자 인식(OCR) 모델로, 통합된 엔드투엔드 모델을 통해 OCR 기술을 OCR-2.0으로 발전시키는 것을 목표로 합니다. 이 모델은 일반 텍스트 인식, 서식 있는 텍스트 인식, 세분화된 OCR, 다중 자르기 OCR, 다중 페이지 OCR 등 광범위한 OCR 작업을 지원합니다. GOT-OCR2.0은 다양하고 복잡한 OCR 애플리케이션 시나리오를 위한 다목적의 효율적인 솔루션을 제공하는 것을 목표로 설계되었습니다.
QWen2 0.5 B 모델 기준. OCR 2.0이라고 불리는 5억 8천만 개의 매개변수가 있는 엔드투엔드 OCR 모델은 0.972의 BLEU 점수를 받았습니다. 온라인 체험 주소: https://huggingface.co/spaces/ucaslcl/GOT_online


기능 목록
- 일반 텍스트 인식: 이미지의 일반 텍스트 콘텐츠를 인식합니다.
- 서식 있는 텍스트 인식: 표, 단락 등과 같은 텍스트의 서식 정보를 인식하고 유지합니다.
- 세분화된 OCR: 복잡한 배경의 이미지와 텍스트의 미세한 텍스트를 인식합니다.
- 다중 자르기 OCR: 이미지의 다중 자르기를 지원하며 자른 각 영역의 텍스트를 인식합니다.
- 다중 페이지 OCR: 다중 페이지 문서의 OCR을 지원합니다.
도움말 사용
설치 프로세스
- 프로젝트 코드를 복제합니다:
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd GOT-OCR2.0
- 가상 환경을 만들고 활성화합니다:
conda create -n got python=3.10 -y conda activate got
- 프로젝트 종속성을 설치합니다:
pip install -e .
- Flash-Attention을 설치합니다:
pip install ninja pip install flash-attn --no-build-isolation
GOT 모델 가중치 얻기
- 허깅페이스
- Google 드라이브
- 바이두 클라우드(추출 코드: OCR2)
사용 프로세스
- 입력 데이터 준비: OCR할 이미지 또는 문서를 지정된 입력 디렉터리에 넣습니다.
- OCR 모델을 실행합니다:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
- 출력 보기: OCR 처리된 텍스트는 지정된 출력 디렉터리에 저장되며, 사용자는 필요에 따라 추가로 처리할 수 있습니다.
기능
- 일반 텍스트 인식간단한 텍스트 추출 작업에 적합한 이미지의 일반 텍스트 콘텐츠를 인식하여 일반 텍스트 파일로 출력합니다.
- 서식 있는 텍스트 인식문서의 원래 서식을 보존해야 하는 시나리오를 위해 표, 단락 등의 서식 정보를 보존하면서 텍스트를 인식합니다.
- 세분화된 OCR복잡한 배경의 미세한 텍스트를 인식하여 고정밀 텍스트 추출이 필요한 장면에 적합합니다.
- 다중 작물 OCR이미지를 여러 번 자르고 자른 각 영역의 텍스트를 인식하여 이미지의 다중 영역 인식이 필요한 시나리오에 적합합니다.
- 다중 페이지 OCR여러 페이지 문서의 OCR을 지원하여 긴 문서나 여러 페이지의 PDF 파일을 처리하는 시나리오에 적합합니다.
위의 단계를 통해 사용자는 다양한 OCR 작업에 GOT-OCR2.0 모델을 쉽게 설치하고 사용할 수 있습니다. 이 모델은 다양한 시나리오에서 OCR 요구 사항을 충족할 수 있는 풍부한 기능 모듈 세트를 제공합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...