OCR 오픈 소스 프로젝트 심층 목록: 2025년에 놓치지 말아야 할 상위 10가지

AI 뉴스게시됨 6 개월 전 AI 공유 서클
10.9K 00

OCR 기술은 이미지의 텍스트 정보를 편집 및 처리 가능한 텍스트 데이터로 변환할 수 있습니다. 간단히 말해 이미지에서 텍스트를 인식하고 추출하는 것입니다.

다음으로, 깃허브에서 가장 많은 별점을 받은 10개의 OCR 오픈 소스 프로젝트를 검토하여 OCR 도구 선택에 대한 철저한 가이드를 제공하겠습니다.

01 GOT-OCR 2.0: 엔드투엔드 멀티모달 OCR 모델

GOT-OCR 2.0 는 모델 크기가 1.43GB에 불과한 오픈 소스 엔드투엔드 멀티모달 OCR 모델로, 텍스트를 인식하고 추출할 뿐만 아니라 다음을 처리합니다.수학 공식, 분자 공식, 다이어그램, 악보, 기하학적 도형등을 통해 OCR 기술의 적용 범위를 크게 넓혔습니다.

모델 기능:

  • 멀티모달 지원: 일반 텍스트뿐만 아니라 다양하고 복잡한 콘텐츠도 처리할 수 있습니다.
  • 경량 모델: 모델 크기가 1.43GB에 불과하여 배포가 용이합니다.
  • 엔드투엔드 식별: 복잡한 사전 및 사후 처리 절차가 필요 없습니다.

장점: GOT-OCR 2.0은 복잡한 시나리오와 다양한 콘텐츠를 처리하는 데 분명한 이점이 있으며, 여러 유형의 문서를 처리해야 하는 애플리케이션 시나리오에 적합합니다.

현재 깃허브에서 7.2만 개의 별을 받았습니다!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL: 강력한 오픈 소스 멀티모달 모델

InternVL 은 OpenGVLab 팀에서 개발한 오픈소스 멀티모달 매크로 모델로, GPT-4V에 근접한 근사치를 제공하는 것을 목표로 합니다. 쌍둥이자리 Pro와 같은 상용 모델의 성능에 대한 대안입니다.

InternVL은 시각적 빅 모델에 속하지만 응용 장면은 OCR 필드의 수직 모델이 아닌 이미지 이해와 같이 더 광범위하지만 장면 텍스트의 OCR 추출과 역호환이 가능합니다. 우수한 오픈 소스 시각 모델이 많이 있지만 이 문서에서는 모두 나열하지 않고 InternVL을 예로 들어 설명합니다.

모델 기능:

  • 멀티모달 기능: 이미지 이해 및 시각적 퀴즈와 같은 다양한 작업을 지원합니다.
  • 고성능: 상용 모델의 성능에 근접합니다.
  • 오픈 소스 열기: 개발자가 2차 개발 및 사용자 지정에 편리하게 사용할 수 있습니다.

장점: 시각적 매크로 모델인 InternVL은 복잡한 이미지를 처리하고 이미지 콘텐츠를 이해하는 데 유리하며 OCR의 기본 요구 사항도 충족합니다.

지금까지 7.2만 개의 별을 받았습니다.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/OpenGVLab/InternVL

03 olmOCR: PDF 문서 구조화 전문가

olmOCR 는 AllenAI에서 개발했으며 다음 사항에 중점을 둡니다. PDF 문서 선형화복잡하게 배치된 PDF를 LLM(대규모 언어 모델링) 교육에 적합한 구조화된 텍스트로 변환하는 툴킷입니다.

핵심 목표는 혼합 텍스트 및 그래픽, 다중 열 레이아웃 등과 같은 PDF 문제를 효율적으로 처리하여 일관된 텍스트 데이터를 생성하고 실제 시나리오에서 문서를 이해하는 LLM의 능력을 향상시키는 것입니다.

기술 세부 정보:

  • 레이아웃 분석: PDF에서 텍스트, 이미지, 표 등의 다중 열 레이아웃을 정확하게 인식합니다.
  • 텍스트 선형화: 복잡한 레이아웃을 LLM 처리에 적합한 선형 텍스트 시퀀스로 변환합니다.
  • 콘텐츠 재구성: 페이지 간, 열 간 등의 문제를 해결하여 텍스트의 일관성을 유지하세요.

애플리케이션 시나리오:

  • 학술 논문 분석: 문서에서 핵심 정보를 빠르게 추출하세요.
  • 법적 문서 처리: 계약서, 판결문 등과 같은 문서 콘텐츠를 구조적으로 추출합니다.
  • 재무 제표 분석: 재무 데이터 및 주요 메트릭을 자동으로 추출합니다.

필수 구성은 최소 20GB의 GPU RAM과 30GB의 사용 가능한 디스크 공간을 갖춘 최신 NVIDIA GPU(RTX 4090, L40S, A100, H100에서 테스트됨)입니다.

지금까지 9.8천 개의 별을 받았습니다!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/allenai/olmocr
在线演示:https://olmocr.allenai.org/

04 Zerox: AI 기반 구조화된 문서 변환 도구

Zerox Omni-AI 팀에서 개발한 AI 기반 문서 추출 도구로 PDF, 이미지, Docx 등의 문서를 구조화된 마크다운 파일로 변환합니다.

장점:

  • 교육이 필요하지 않습니다: 기존 OCR 툴과 달리 Zerox는 모델을 미리 학습시킬 필요 없이 복잡한 레이아웃을 처리할 수 있습니다.
  • 구조화된 콘텐츠를 직접 생성합니다: 시각적 모델(예: GPT-4o-mini)을 기반으로 OCR을 구현하고 구조화된 콘텐츠를 직접 생성합니다.
  • 논리적 구조를 유지합니다: 학술 논문, 기술 문서의 코드 블록, 계약서 양식, 시험지 공식 등의 열 레이아웃을 인식하고 깔끔한 마크다운을 생성하세요.
  • 기존 OCR과 비교 Zerox는 레이아웃 분석, 테이블 구조 축소 등의 기존 단계를 생략하고 마크다운 결과를 바로 출력합니다.

현재 10.3만 별을 받고 있습니다!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/getomni-ai/zerox
体验地址:https://getomni.ai/ocr-demo

05 Surya: 다국어 텍스트 및 복잡한 문서 구조 인식

Surya 다국어 텍스트와 복잡한 문서 구조를 인식하는 데 중점을 두며, 특히 표 인식에 대한 전문성을 갖추고 있습니다.

키워드: 줄 수준 텍스트 감지, 레이아웃 분석(표, 이미지, 캡션 등 감지), 읽기 순서 감지, 표 인식(행/열 감지), LaTeX OCR

주요 기능:

  1. 다국어 지원: 영어, 스페인어와 같은 주류 언어는 물론 중국어, 일본어, 아랍어와 같은 복잡한 스크립트를 포함한 90개 이상의 언어를 지원하여 글로벌 시나리오에서 문서를 처리할 수 있습니다.
  2. 양식 인식 최적화: 테이블의 회전 또는 복잡한 레이아웃을 포함하여 테이블의 행, 열, 셀 구조를 정확하게 식별할 수 있으며, 현재 주류 오픈 소스 모델(예: Table Transformer)보다 성능이 우수합니다.
  3. 복잡한 문서 구문 분석: 문서의 제목, 그림, 단락 및 기타 요소를 감지하고 출력 내용의 혼동을 피하기 위해 읽기 순서를 지능적으로 판단할 수 있습니다.

애플리케이션 시나리오 예시:

  • 다국어 문서 디지털화: 다국어 계약서, 보고서 등은 다국적 기업에서 처리합니다.
  • 기록 아카이브의 디지털화: 복잡한 표와 레이아웃이 포함된 기록 문서를 처리하세요.
  • 과학적 데이터 추출: 학술 논문에서 표 형식의 데이터 추출하기.

Surya는 CPU/GPU 작업을 지원하며 엔터프라이즈급 문서 디지털화 요구에 맞는 일괄 처리 및 이미지 전처리 최적화(예: 노이즈 제거, 그레이 스케일링)를 통해 인식 속도를 크게 향상시킵니다.

현재 깃허브에서 16.8천 개의 별을 받았습니다!

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/VikParuchuri/surya

06 OCRmyPDF: 스캔한 PDF에 검색 가능한 텍스트 레이어 추가하기

스캔한 PDF 문서(즉, PDF는 모든 이미지이며 텍스트의 이미지는 복사할 수 없음)를 위해 설계된 이 오픈 소스 도구는 검색 및 복사 가능한 텍스트 레이어를 추가합니다.

애플리케이션 시나리오:

  • 아카이브의 디지털화: 스캔한 종이 문서를 검색 가능한 PDF로 변환하세요.
  • 접근성: 시각 장애인을 위한 접근 가능한 PDF 문서.
  • 정보 검색: 수많은 스캔 문서에서 정보를 쉽게 찾을 수 있습니다.

장점:

  • 정확한 식별: 테서랙트 OCR 엔진을 사용하여 100개 이상의 언어를 지원합니다.
  • 이미지 최적화: 기울어진 페이지와 회전된 오류 페이지를 자동으로 수정하여 인식률을 높입니다.
  • 일괄 처리: 멀티코어 CPU 가속으로 수천 페이지에 달하는 문서를 효율적으로 처리하세요.

OCRmyPDF는 스캔한 PDF를 처리할 때 확실한 이점이 있고 설치와 사용이 간편하며 Linux, Windows, macOS, Docker와 호환되므로 스캔한 문서를 수동으로 처리해야 하는 다른 도구보다 더 편리한 솔루션을 제공합니다.

현재 깃허브에서 20.7만 개의 별을 받았습니다!

이미지 기반 PDF를 열면 이미지의 텍스트를 복사하고 검색할 수 없는데, OCRmyPDF는 이미지 아래에 OCR 텍스트 레이어를 삽입하여 고정밀 복사 및 검색을 지원할 수 있습니다.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/ocrmypdf/OCRmyPDF
接入文档:https://ocrmypdf.readthedocs.io/en/latest/

07 마커: PDF, 이미지 및 기타 다중 형식 문서 변환

마커 Vik Paruchuri가 개발한 효율적인 문서 변환 도구로 PDF, 이미지, Office 문서, EPUB 형식을 마크다운, JSON 또는 HTML로 빠르게 변환할 수 있습니다.

장점: 마커 복잡한 콘텐츠(예: 표, 수학 공식, 코드 블록)를 높은 정확도와 뛰어난 처리 속도로 구문 분석하는 데 탁월하며, GPU 가속을 지원하고, 동급의 클라우드 서비스(예: Llamaparse, Mathpix)보다 성능이 뛰어납니다.

애플리케이션:

  • 학술 논문 변환: PDF 문서를 마크다운으로 변환하여 손쉽게 편집하고 인용하세요.
  • 기술 문서 생성: 코드와 다이어그램이 포함된 문서를 게시하기 쉬운 HTML 형식으로 변환하세요.
  • 데이터 추출: 테이블 및 양식 데이터를 JSON 형식으로 추출하여 후속 처리가 용이하도록 합니다.

마커는 대규모 언어 모델(예: 쌍둥이자리, 올라마)을 호출하여 페이지 간 표 병합, 수식 서식 지정, 양식 데이터 추출과 같은 결과를 최적화할 수 있습니다.

현재 깃허브에서 22.8천 개의 별을 받았습니다.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/vikParuchuri/marker

08 EasyOCR: 다국어 텍스트 인식 도구 라이브러리

EasyOCR 이미지를 입력하면 추출된 텍스트와 해당 위치의 좌표, 신뢰도를 반환하는 JaidedAI에서 개발한 오픈 소스 OCR 도구 라이브러리입니다.

기능:

  • 다국어 지원: 80개 이상의 언어와 여러 문자 체계(예: 중국어, 라틴어, 아랍어)를 지원합니다.
  • 바로 사용 가능: 추가 교육 없이 신속하게 배포할 수 있도록 사전 학습된 모델을 제공합니다.
  • 유연한 입력: 이미지, 바이트 스트림, URL 등 다양한 입력 양식을 지원합니다.
  • 단순성 API: 간결한 API를 통해 텍스트 내용, 위치, 신뢰도를 출력합니다.
  • CPU/GPU 호환: 운영 환경은 하드웨어 조건에 따라 유연하게 선택할 수 있습니다.

모델 교육: EasyOCR은 PyTorch 딥 러닝 프레임워크를 기반으로 하며, 훈련을 위해 CTC(연결주의 시간 분류) 손실 함수와 결합된 CRNN(컨볼루션 반복 신경망) 모델 구조를 사용합니다.

애플리케이션 시나리오:

  • 다국어 문서 인식: 여러 언어가 포함된 문서 작업에 이상적입니다.
  • 자연스러운 장면 텍스트 인식: 도로 표지판이나 번호판과 같은 자연스러운 장면의 텍스트를 인식하는 데 사용할 수 있습니다.
  • 모바일 OCR: 이 모델은 가볍고 모바일 배포에 적합합니다.

EasyOCR은 다국어 문서 및 자연스러운 장면 텍스트와 같은 OCR 시나리오에 필요한 개발자 친화성과 산업 등급 애플리케이션 요구 사항을 결합합니다.

현재 깃허브에서 26,000개의 별을 보유하고 있습니다.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/JaidedAI/EasyOCR
Demo 地址:https://www.jaided.ai/documentai/demo

09 Umi-OCR: 설치 즉시 작동하는 오프라인 OCR 소프트웨어

이 소프트웨어는 무료 오픈 소스 오프라인 OCR 텍스트 인식 소프트웨어로, 네트워크를 연결하거나 다운로드하여 로컬에서 실행할 필요 없이 Windows 7+ x64 및 Linux x64 시스템을 지원합니다.

키워드: 로컬 소프트웨어 압축 풀기 및 오프라인 실행, 스크린샷 OCR, 일괄 OCR;

장점:

  • 오프라인에서 실행 중입니다: 사용자 개인정보 보호를 위해 인터넷 연결이 필요하지 않습니다.
  • 사용이 간편합니다: 간편한 조작을 위한 그래픽 인터페이스를 제공합니다.
  • 풍부한 기능: 스크린샷 OCR, 일괄 OCR 및 기타 여러 기능을 지원합니다.
  • 다른 오프라인 도구와 비교해보세요: 설치가 간편하고 운영 환경을 구성할 필요가 없는 것이 특징입니다.

지금까지 30.8만 개의 별을 획득했습니다.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10   OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/hiroi-sora/Umi-OCR

10 테서랙트: OCR 분야의 고대 신들

테서랙트 는 이미지의 텍스트를 편집 가능한 텍스트로 변환하는 강력하고 널리 사용되는 오픈 소스 OCR 엔진입니다.

역사적 맥락:

  • 1985년에서 1994년 사이에 Hewlett-Packard 연구소에서 개발했습니다.
  • 1996년 이후에 Windows로 포팅되었습니다.
  • HP는 2005년에 이를 오픈소스화했습니다.
  • Google이 후원하는 이 시스템은 가장 잘 알려진 오픈 소스 OCR 시스템 중 하나입니다.

기술적 특성:

  • 딥 러닝 기술: 고급 딥러닝 기술(예: 컨볼루션 신경망)을 사용한 문자 인식은 매우 정확하며 특히 더 좋은 품질의 스캔 이미지를 처리할 때 성능이 뛰어납니다.
  • 다국어 지원: 100개 이상의 언어로 텍스트 인식.

다른 엔진과 비교하세요: 테서랙트는 오랜 역사와 활발한 커뮤니티를 보유하고 있으며 문서화가 잘 되어 있지만 복잡한 레이아웃과 저품질 이미지를 처리하는 데는 일부 신흥 OCR 엔진만큼 뛰어나지 않을 수 있습니다.

테서랙트 OCR의 자바스크립트 버전인 테서랙트.js도 있지만, 실제 테스트 결과 JS 버전은 중국어를 잘 지원하지 않는 것으로 나타났습니다.

지금까지 GitHub에서 65.3만 개의 별을 받았습니다.

OCR 开源项目深度盘点:2025 年不容错过的 Top 10
开源地址:https://github.com/tesseract-ocr/tesseract
开源地址:https://github.com/naptha/tesseract.js
OCR 开源项目深度盘点:2025 年不容错过的 Top 10
© 저작권 정책

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...