GOT-OCR2.0: QWen2 0.5B 엔드투엔드 멀티모달 OCR 모델 기반

64.3K 00

일반 소개

GOT-OCR2.0은 스텝스타가 공동 제안한 오픈 소스 광학 문자 인식(OCR) 모델로, 통합된 엔드투엔드 모델을 통해 OCR 기술을 OCR-2.0으로 발전시키는 것을 목표로 합니다. 이 모델은 일반 텍스트 인식, 서식 있는 텍스트 인식, 세분화된 OCR, 다중 자르기 OCR, 다중 페이지 OCR 등 광범위한 OCR 작업을 지원합니다. GOT-OCR2.0은 다양하고 복잡한 OCR 애플리케이션 시나리오를 위한 다목적의 효율적인 솔루션을 제공하는 것을 목표로 설계되었습니다.

QWen2 0.5 B 모델 기준. OCR 2.0이라고 불리는 5억 8천만 개의 매개변수가 있는 엔드투엔드 OCR 모델은 0.972의 BLEU 점수를 받았습니다. 온라인 체험 주소: https://huggingface.co/spaces/ucaslcl/GOT_online

기능 목록

일반 텍스트 인식: 이미지의 일반 텍스트 콘텐츠를 인식합니다.
서식 있는 텍스트 인식: 표, 단락 등과 같은 텍스트의 서식 정보를 인식하고 유지합니다.
세분화된 OCR: 복잡한 배경의 이미지와 텍스트의 미세한 텍스트를 인식합니다.
다중 자르기 OCR: 이미지의 다중 자르기를 지원하며 자른 각 영역의 텍스트를 인식합니다.
다중 페이지 OCR: 다중 페이지 문서의 OCR을 지원합니다.

도움말 사용

설치 프로세스

프로젝트 코드를 복제합니다:

git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

가상 환경을 만들고 활성화합니다:

conda create -n got python=3.10 -y
conda activate got

프로젝트 종속성을 설치합니다:
```
pip install -e .
```

Flash-Attention을 설치합니다:

pip install ninja
pip install flash-attn --no-build-isolation

GOT 모델 가중치 얻기

사용 프로세스

입력 데이터 준비: OCR할 이미지 또는 문서를 지정된 입력 디렉터리에 넣습니다.

OCR 모델을 실행합니다:

python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr

출력 보기: OCR 처리된 텍스트는 지정된 출력 디렉터리에 저장되며, 사용자는 필요에 따라 추가로 처리할 수 있습니다.

기능

일반 텍스트 인식간단한 텍스트 추출 작업에 적합한 이미지의 일반 텍스트 콘텐츠를 인식하여 일반 텍스트 파일로 출력합니다.
서식 있는 텍스트 인식문서의 원래 서식을 보존해야 하는 시나리오를 위해 표, 단락 등의 서식 정보를 보존하면서 텍스트를 인식합니다.
세분화된 OCR복잡한 배경의 미세한 텍스트를 인식하여 고정밀 텍스트 추출이 필요한 장면에 적합합니다.
다중 작물 OCR이미지를 여러 번 자르고 자른 각 영역의 텍스트를 인식하여 이미지의 다중 영역 인식이 필요한 시나리오에 적합합니다.
다중 페이지 OCR여러 페이지 문서의 OCR을 지원하여 긴 문서나 여러 페이지의 PDF 파일을 처리하는 시나리오에 적합합니다.

위의 단계를 통해 사용자는 다양한 OCR 작업에 GOT-OCR2.0 모델을 쉽게 설치하고 사용할 수 있습니다. 이 모델은 다양한 시나리오에서 OCR 요구 사항을 충족할 수 있는 풍부한 기능 모듈 세트를 제공합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

TRELLIS.2 - Microsoft 오픈 소스 대규모 3D 제너레이티브 모델

최신 AI 리소스

3개월 전

038.8K

Sonia: 연중무휴 24시간 AI 정신 건강 지원, 인지 행동 치료, 정신 건강 앱 제공

최신 AI 리소스 # AI 생활 효율 도우미

1 년 전

059.4K

아티피카: 긴 추론을 통한 아름다운 비즈니스 연구 생성

최신 AI 리소스 # 심층 연구 보고서 생성

12개월 전

054K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

최신 AI 리소스

2개월 전

025.8K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

GOT-OCR2.0: QWen2 0.5B 엔드투엔드 멀티모달 OCR 모델 기반

일반 소개

기능 목록

도움말 사용

설치 프로세스

GOT 모델 가중치 얻기

사용 프로세스

기능

TgWechat: WeChat용 엔드투엔드 암호화 채팅 플러그인

NotebookLM: 지식 노트 검색 읽기, 다중 클래스 문서 생성 음성 대화 팟캐스트

관련 게시물

TRELLIS.2 - Microsoft 오픈 소스 대규모 3D 제너레이티브 모델

Sonia: 연중무휴 24시간 AI 정신 건강 지원, 인지 행동 치료, 정신 건강 앱 제공

아티피카: 긴 추론을 통한 아름다운 비즈니스 연구 생성

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

댓글 없음

최신 컬렉션

최신 기사

GOT-OCR2.0: QWen2 0.5B 엔드투엔드 멀티모달 OCR 모델 기반

일반 소개

기능 목록

도움말 사용

설치 프로세스

GOT 모델 가중치 얻기

사용 프로세스

기능

TgWechat: WeChat용 엔드투엔드 암호화 채팅 플러그인

NotebookLM: 지식 노트 검색 읽기, 다중 클래스 문서 생성 음성 대화 팟캐스트

관련 게시물

TRELLIS.2 - Microsoft 오픈 소스 대규모 3D 제너레이티브 모델

Sonia: 연중무휴 24시간 AI 정신 건강 지원, 인지 행동 치료, 정신 건강 앱 제공

아티피카: 긴 추론을 통한 아름다운 비즈니스 연구 생성

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사