MinerU2.5 - 상하이 AI Lab과 북경대학교 오픈 소스 문서 구문 분석 모델

47.1K 00

MinerU2.5란 무엇인가요?

MinerU2.5는 상하이 인공지능 연구소와 북경대학교 팀이 공동으로 개발한 분리형 시각 언어 모델로, 고해상도 문서 이미지 구문을 효율적으로 처리하는 데 중점을 두고 있습니다. 핵심 혁신은 '글로벌 레이아웃 감지 후 로컬 콘텐츠 인식'이라는 2단계 설계에 있습니다. 1단계에서는 저해상도 썸네일을 통해 문서 구조와 읽기 순서를 빠르게 찾고, 2단계에서는 기본 해상도로 자른 후 핵심 영역을 정확하게 인식합니다. 이 모델은 1.2B에 불과하지만 8K 문서에서도 높은 정확도를 유지할 수 있으며, 단일 카드 RTX 4090의 측정된 처리 속도는 초당 최대 2.12페이지로 유사 솔루션보다 훨씬 우수합니다. 또한 OTSL 중간 언어를 통한 HTML 시퀀스 길이 압축, 긴 수식 구조 착시 문제를 해결하기 위한 원자 수식 분해 및 재구성 기술 등 표와 수식 등 복잡한 요소의 특수 최적화를 통해 독창성이 반영되었습니다.

MinerU2.5의 특징

효율적인 2단계 구문 분석 아키텍처첫 번째 단계는 다운샘플링된 이미지의 전체 레이아웃을 분석하여 문서의 텍스트 블록, 표, 수식 및 기타 구조적 요소를 빠르게 식별하고, 두 번째 단계는 고해상도 영역의 세분화된 콘텐츠를 기본 해상도에서만 식별하여 계산 오버헤드와 디테일 유지의 균형을 효과적으로 맞추는 '선 거칠게 후 미세하게' 디커플링 전략이 채택됩니다.
뛰어난 정확성과 성능매개변수 수는 12억 개에 불과하지만, OmniDocBench, olmOCR-bench 등과 같은 여러 권위 있는 벤치마크에서 포괄적인 구문 분석 정확도가 다음을 능가합니다. 쌍둥이자리 2.5 Pro, GPT-4o, Qwen2.5-VL-72B 및 기타 최상위 범용 멀티모달 매크로 모델뿐만 아니라 dots.ocr, MonkeyOCR과 같은 전문 문서 구문 분석 도구보다 훨씬 앞서고 있습니다.
복잡한 장면에 적응하는 강력한 능력멀티모달 융합 아키텍처를 통해 텍스트 인식과 시각적 레이아웃 분석을 심층적으로 통합하고 표 선 누락, 기울어진 텍스트, 복잡한 수식 등 기존 OCR이 실패하는 시나리오를 효과적으로 처리할 수 있습니다. 다중 열 레이아웃, 그림 간섭, 퍼지 왜곡, 저해상도 스캔과 같은 극한의 조건에서도 안정적인 성능을 제공하며 중국어, 영어, 일본어, 한국어 등 20개 이상의 언어로 혼합 배열 인식을 지원합니다.
매우 실용적이고 효율적인 배포이 모델은 크기가 작고 통합이 쉬우며 RTX 3090 또는 4090과 같은 소비자 그래픽 카드에서 초당 1.7~2페이지의 고속 구문 분석이 가능하여 RAG(검색 강화 생성) 지식 기반 구축 및 대규모 문서 추출과 같은 실제 배포에 이상적입니다.
구조화된 결과물을 통한 종합적인 업무 지원레이아웃 분석: 레이아웃 분석을 한 번의 추론으로 문서 요소의 위치, 범주, 회전 각도, 읽기 순서를 동시에 예측하는 멀티태스킹 문제로 혁신적으로 재구성합니다. 후속 처리 및 적용을 위해 파싱 결과를 Markdown, JSON 및 기타 구조화된 형식으로 출력할 수 있도록 지원합니다.

MinerU2.5의 핵심 이점

고급 2단계 구문 분석 아키텍처디커플링 전략이 채택되어 첫 번째 단계에서는 다운샘플링된 이미지에서 효율적인 글로벌 레이아웃 분석을 수행하여 문서 구조 요소를 식별하고, 두 번째 단계에서는 기본 해상도의 고해상도 영역에서 세분화된 콘텐츠 인식을 수행하여 계산 오버헤드와 디테일 보존의 균형을 효과적으로 맞춥니다.
뛰어난 성능옴니독벤치, olmOCR벤치 및 기타 권위 있는 벤치마크에서 종합적인 구문 분석 정확도는 Gemini 2.5 Pro, GPT-4o, Qwen2.5-VL-72B 등과 같은 최고의 일반 멀티모달 대형 모델을 종합적으로 능가하며, dots.ocr, MonkeyOCR, PP-. StructureV3 및 기타 전문 문서 구문 분석 도구보다 훨씬 앞서 있습니다.
향상된 멀티태스킹 패러다임레이아웃 분석을 멀티태스킹 문제로 재정의하여 문서 요소의 위치, 범주, 회전 각도, 읽기 순서를 한 번의 추론으로 동시에 예측함으로써 회전된 요소 구문 분석과 같은 복잡한 문제를 효과적으로 해결합니다.
매우 실용적이고 효율적이 모델은 크기가 작고 통합이 쉬우며 일반 소비자용 그래픽 카드에서 초당 1.7페이지의 고속 구문 분석이 가능하여 RAG(검색 증강 생성) 지식 기반 구축, 대규모 문서 추출 등과 같은 실제 적용 시나리오에 이상적입니다.

MinerU2.5 공식 웹사이트는 무엇인가요?

허깅페이스 모델 라이브러리:: https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
arXiv 기술 논문:: https://arxiv.org/pdf/2509.22186

MinerU2.5의 대상은 다음과 같습니다.

엔터프라이즈 디지털화 및 지식 관리 팀대량의 계약서, 보고서, 아카이브 및 기타 종이 문서를 디지털화하는 작업을 처리해야 하는 기업에 적합하며 스캔 문서, PDF 및 기타 비정형 데이터를 라이브러리로 효율적으로 파싱하고 RAG(검색 증강 세대) 지식 기반 구축의 효율성을 크게 향상시킬 수 있습니다.
개발자 및 AI 엔지니어링 팀이 모델은 완전한 오픈 소스이며 레퍼런스 크기가 작고(12억), 소비자용 그래픽 카드(예: RTX 4090)에 배포를 지원하며, 대규모의 비공개 소스 API에 의존하지 않고 고성능 OCR 기능을 제품에 통합하려는 개발자 및 엔지니어링 팀에 이상적입니다.
연구 기관 및 학계문서 이해, 멀티모달 매크로 모델링 등의 분야에서 학술 연구를 위한 강력한 오픈 소스 기준 모델을 제공하여 연구자가 추가 실험, 미세 조정 또는 방법 비교의 기초로 삼을 수 있습니다.
금융, 법률 및 정부 기관MinerU2.5는 복잡한 구조의 양식, 계약서, 양식을 대량으로 처리해야 하는 복잡한 조판과 양식 줄이 없는 시나리오에서 탁월한 성능을 발휘하여 고정밀의 구조화된 정보 추출에 대한 엄격한 요구 사항을 충족합니다.