PaddleOCR-VL - 바이두 오픈 소스 초경량 시각 언어 모델

47.1K 00

PaddleOCR-VL이란?

PaddleOCR-VL은 문서 구문 분석 시나리오에 최적화된 Baidu의 오픈 소스 초경량 시각 언어 모델입니다. 이 모델은 동적 고해상도 시각 코더와 경량 ERNIE 언어 모델을 융합하여 계산 오버헤드를 크게 줄이면서도 높은 정확도를 유지하는 동시에 0.9억 개의 파라미터만 포함하고 있습니다. 109개 언어를 지원하여 텍스트, 표, 수식, 차트 등과 같은 복잡한 요소를 정확하게 식별하고 사람의 읽기 습관에 맞춰 레이아웃 구조를 복원할 수 있습니다. 권위 있는 벤치마크인 OmniDocBench v1.5에서 텍스트 편집 거리(0.035), 공식 인식(CDM 91.43), 공식 처리(TEDS 93.52) 등 핵심 지표에서 SOTA 수준에 도달하며 종합 성능 92.6점으로 세계 1위에 올랐고 GPT-4o 등 주류 멀티모달 모델보다 뛰어난 성능을 발휘했습니다.

PaddleOCR-VL의 특징

초경량 고성능매개변수가 0.9억 개에 불과하고, 일반 CPU에서 실행되며, 브라우저 플러그인 수준의 배포를 지원하고, 유사 모델보다 훨씬 빠른 추론(MinerU2.5보다 14.21 TP3T, dots.ocr보다 253.011 TP3T 빠름)이 가능합니다.
다중 요소 정밀 분석텍스트, 표, 수식, 차트 등 복잡한 요소의 세분화된 인식을 지원하며, 권위 있는 평가에서 텍스트 편집 거리는 0.035, 수식 인식 CDM은 91.43, 표 TEDS는 93.52로 모두 업계 최적 수준에 도달했습니다.
다국어 및 복잡한 시나리오 적용이 회사는 109개 언어(러시아어, 아랍어 등 특수 문자 체계 포함)를 지원하며 손글씨, 역사 문서 및 세로로 입력된 텍스트(예: 중국어 세로)를 처리하는 데 능숙하여 글로벌화된 문서 처리 요구에 적응하고 있습니다.
지능형 레이아웃 분석 및 읽기 순서 복원읽기 로직은 2단계 아키텍처(PP-DocLayoutV2 레이아웃 감지 + PaddleOCR-VL-0.9B 인식)를 통해 자동으로 예측되며, 읽기 순서 오차는 0.043에 불과하여 사람의 읽기 습관을 정확하게 복원합니다.
오픈 소스 및 실용적인 이점완전 오픈 소스이며 데모 제공, 송장 인식, 학술 논문 구문 분석 및 기타 시나리오에서 뛰어난 성능, RAG 시스템과 결합하여 AI 지식 처리 인프라가 될 수 있습니다.

패들OCR-VL의 핵심 이점

초경량 & 효율적인 추론핵심 모델만 0.9B 매개변수MinerU2.5는 일반 CPU에서 실행할 수 있고, 브라우저 플러그인 수준의 배포를 지원하며, 메모리 사용량이 매우 적습니다. 단일 A100 GPU에서 MinerU2.5보다 추론 속도가 향상되었습니다. 14.2%dots.ocr에서 업그레이드된 253.01%를 사용하여 계산 오버헤드를 크게 줄였습니다.
다국어 및 복잡한 요소의 정확한 인식: 지원 109개 언어중국어, 영어, 아랍어, 러시아어 및 기타 특수 문자 체계를 지원하며 텍스트, 표, 수식, 차트, 필기 및 역사 문서와 같은 복잡한 요소를 정확하게 처리할 수 있습니다.
안정적이고 신뢰할 수 있는 2단계 아키텍처: 입양 PP-DocLayoutV2 레이아웃 검사 + PaddleOCR-VL-0.9B 콘텐츠 인식 시너지 프레임워크는 엔드투엔드 모델의 일반적인 착시 현상과 정렬 오류 문제를 효과적으로 방지하고 복잡한 레이아웃에서 보다 안정적으로 작동합니다.
심층적인 멀티모달 융합과 현실적인 이해통해 NaViT 동적 해상도 비주얼 인코더 와 함께 ERNIE-4.5-0.3B 언어 모델 이를 결합하여 문자 인식부터 의미 이해까지 포괄적인 혁신을 달성하고 여러 열의 타이포그래피, 수학 공식, QR코드와 같은 특수 요소를 지능적으로 처리합니다.
권위 있는 리뷰에서 선도적인 성과종합적인 성능은 OmniDocBench V1.5 및 기타 권위 있는 목록에서 Gemini-2.5 Pro 및 GPT-4o와 같은 거대 멀티모달 모델과 dots.ocr 및 MinerU와 같은 수직 도메인 모델을 능가하는 세계 1위로 평가되었습니다.

PaddleOCR-VL의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
허깅페이스 모델 라이브러리:: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
arXiv 기술 논문:: https://arxiv.org/pdf/2510.14528
온라인 경험 데모:: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
공식 체험 주소:: https://aistudio.baidu.com/application/detail/98365

PaddleOCR-VL은 누구를 위한 제품인가요?

개발자 및 엔지니어리소스가 제한된 시나리오(예: 브라우저 플러그인, 모바일 애플리케이션) 및 오픈 소스 커뮤니티 협업에 특히 적합한 OCR 기능을 통합해야 하는 소프트웨어 개발자를 위한 제품입니다.
엔터프라이즈 IT 및 디지털 팀금융, 소매, 제조 및 기타 산업에서 자동화 프로세스(예: 계약 검토, 재고 관리)를 구축하기 위해 대량의 문서를 다루는 기업.
연구자 및 교육자대상: 학술 기관, 도서관, 교육 업계 종사자 등 문헌의 디지털화, 원고 필사 또는 교육 자료의 구문 분석에 사용됩니다.
정부 및 공공 유틸리티정부 기록 보관 부서, 공공 서비스 기관 및 기타 규정을 준수하고 효율적인 방식으로 민감한 문서를 처리해야 하는 기관.
예산이 제한된 중소기업 및 스타트업고성능 OCR 기능이 필요하지만 대규모 모델 계산 비용을 감당할 수 없는 프로젝트 팀.