DeepOCR - DeepSeek-OCR 모델을 기반으로 하는 오픈 소스 복제본 프로젝트

28.4K 00

DeepOCR이란?

DeepOCR은 오픈 소스 복제 프로젝트입니다. DeepSeek-OCR 시스템의 핵심 아키텍처는 광학 압축 기술을 통해 텍스트 정보를 효율적으로 처리합니다. 핵심은 고해상도 이미지 처리를 위한 SAM 기반, 16배 컨볼루션 압축기(압축률 감소를 위한 토큰 DeepOCR은 2단계 훈련 프로세스를 사용합니다. 첫 번째 단계에서는 시각적 언어 정렬을 위해 LLaVA-CC3M 데이터 세트를 사용합니다. 이 설계는 고해상도 처리 성능을 유지하면서 활성화 메모리와 토큰 수를 크게 줄입니다.DeepOCR은 2단계 훈련 프로세스를 사용합니다. 첫 번째 단계에서는 시각 언어 정렬 훈련을 위해 LLaVA-CC3M 데이터 세트를 사용하고, 두 번째 단계에서는 시각 언어 정렬 훈련을 위해 다음을 사용합니다. olmOCR 데이터 세트에 대해 OCR 관련 사전 학습이 수행됩니다. 이러한 훈련 방식을 통해 DeepOCR은 OmniDocBench 및 olmOCR 벤치마크, 특히 영어 텍스트 인식 및 표 구문 분석 작업에서 우수한 성능을 발휘하여 광학 압축의 효과를 검증합니다.

DeepOCR의 특징

광학 압축텍스트 정보를 이미지로 렌더링하고 SAM 및 CLIP과 같은 비주얼 코더로 처리하여 최대 7~20배의 압축률로 텍스트 정보를 효율적으로 압축합니다.
고해상도 처리1024×1024 이상의 해상도 이미지 입력을 지원하고, 창 주의 메커니즘과 컨볼루션 압축 기술을 통해 활성화 메모리를 효율적으로 관리합니다.
멀티모달 융합SAM의 로컬 특징과 CLIP의 글로벌 시맨틱 특징이 결합되어 2048차원의 융합 특징을 생성하여 다운스트림 작업에 풍부한 정보를 제공합니다.
2단계 교육모델은 첫 번째 단계에서 시각-언어적 정렬을 위해 훈련되고 두 번째 단계에서 OCR 작업에 대해 사전 훈련되어 텍스트 인식 및 문서 구문 분석 작업을 잘 수행할 수 있도록 합니다.
저전력 친화적딥인코더(SAM + CLIP)를 동결하면 그래픽 메모리 요구량이 크게 줄어들어 제한된 GPU 리소스(예: 2×H200)로도 모델 학습을 완료할 수 있습니다.
오픈 소스 구현VILA 프레임워크에 기반한 완전 오픈 소스로, 연구 커뮤니티에 광학 컨텍스트 압축 메커니즘을 탐색할 수 있는 접근 가능한 플랫폼을 제공합니다.
벤치마킹이 모델의 성능은 OmniDocBench 및 olmOCR 벤치마크에서 검증되었으며, 특히 영어 텍스트 인식 및 표 구문 분석 작업에서 우수한 성능을 발휘합니다.

DeepOCR의 핵심 이점

효율적인 압축::텍스트를 이미지로 렌더링하고 시각적 인코더를 사용하여 처리하는 광학 압축은 텍스트 토큰의 수를 7~20배까지 크게 줄입니다. 따라서 긴 텍스트를 보다 효율적으로 처리하고 컴퓨팅 리소스 요구 사항을 줄일 수 있습니다.
고해상도 처리 기능::고해상도 입력(예: 1024×1024)을 지원하며, 창 주의 메커니즘(SAM)과 컨볼루션 압축 기술을 통해 메모리 폭발을 방지하기 위해 활성화 메모리를 효율적으로 관리합니다. 이를 통해 DeepOCR은 복잡한 문서 레이아웃과 고해상도 이미지를 처리할 수 있습니다.
멀티모달 융합::SAM의 로컬 피처는 CLIP의 글로벌 시맨틱 피처와 융합되어 2048차원의 풍부한 피처를 생성합니다. 이러한 멀티모달 융합은 다운스트림 작업을 위한 보다 포괄적인 정보를 제공하고 모델의 성능을 향상시킵니다.
저전력 친화적::훈련 과정에서 딥인코더(SAM + CLIP)가 고정되어 그래픽 메모리 요구량이 크게 줄어듭니다. 이를 통해 모델은 제한된 GPU 리소스(예: 2×H200)로 훈련을 완료할 수 있으므로 하드웨어 임계값이 낮아져 중소규모 팀에 적합합니다.

DeepOCR의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://pkulium.github.io/DeepOCR_website/
깃허브 리포지토리:: https://github.com/pkulium/DeepOCR

DeepOCR의 대상

문서 처리 및 OCR 개발자::긴 텍스트와 복잡한 문서 레이아웃은 효율적으로 처리해야 하며, DeepOCR의 광학 압축 및 고해상도 처리 기능은 문서 구문 분석 효율성을 크게 향상시킬 수 있습니다.
중소규모 팀 및 독립 개발자::컴퓨터 친화적인 DeepOCR의 특성 덕분에 제한된 하드웨어 리소스에서 실행하기에 적합하여 개발 문턱이 낮습니다.
오픈 소스 커뮤니티 기여자::오픈 소스 커뮤니티의 구성원은 코드 기여, 개선 및 확장에 참여하여 기술을 발전시킬 수 있습니다.
혁신 기술에 관심이 있는 학술 연구자::이미지 이해 및 UI 요소 감지 등 다양한 분야에서 광학 압축을 적용할 수 있기를 기대합니다.
효율적인 텍스트 처리를 필요로 하는 기업 및 조직::DeepOCR의 효율적인 압축 및 처리 기능을 활용하여 내부 문서 처리를 최적화하고 업무 효율성을 개선할 수 있습니다.