RAG 지식 기반 필수 문서 추출 오픈 소스 프로젝트 비교

AI 기술 자료12개월 전에 게시됨 AI 공유 서클
53.4K 00
堆友AI

최근 저는 스마트 고객 서비스 프로젝트를 선정하고 있었습니다. RAG 지식창고 데이터 처리 도구, 현재 주류 문서 처리 프로젝트인 olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse 등 6가지 도구에 대해 새롭게 살펴보고 간략하게 비교하는 글입니다. 종합적인 관점. MinerU 문서 추출은 더 일반적이며 모든 종류의 시나리오에 적합하지만 다른 문서 제안 도구에는 고유 한 특성이 있으므로 필요에 따라 선택하십시오.

 

olmOCR

기술 아키텍처: 대규모 언어 모델을 기반으로 완전한 PDF 처리 프로세스를 구축합니다. 분산 아키텍처를 사용하여 단일 및 다중 노드 병렬 처리를 지원하며, sglang을 사용하여 GPU 가속 추론을 구현합니다.

기능적 특징: 고품질 텍스트 추출 기능으로 복잡한 PDF에서 구조화된 일반 텍스트를 추출하고 여러 열 레이아웃, 표, 수학 방정식 및 손글씨 콘텐츠를 올바르게 처리할 수 있습니다. 결과를 마크다운 형식으로 출력하고, 1,000,000개의 PDF 페이지를 처리하는 데 약 $190의 비용이 들며, Marker, MinerU, GOT-OCR 2.0 및 기타 유사한 도구보다 성능이 뛰어납니다.

RAG知识库必备的文档提取开源项目对比

적용 가능한 시나리오: 학술 문서의 디지털화, 엔터프라이즈급 문서 저장소의 변환, AI 학습 데이터 세트 구축, 과거 문서 콘텐츠 복구.

장점: 오픈 소스 프로젝트, 높은 구문 분석 품질, 상용 API보다 저렴한 비용, 뛰어난 성능.

단점: 높은 임계값 사용, 다양한 시스템 종속성 필요, 아직 개발 초기 단계로 문서 개선이 필요, 현재 PDF 및 이미지 구문 분석만 지원.

https://github.com/allenai/olmocr

 

마커

기술 아키텍처: PyMuPDF 및 테서랙트 OCR 기반, GPU 가속 지원(수리야 OCR 엔진), 오픈 소스 경량화.

기능: PDF를 마크다운으로 변환, 수식을 라텍스로 변환, 이미지 인라인 보존, 스캔한 PDF의 OCR 인식, 다국어 문서 처리 가능에 중점을 둡니다.

RAG知识库必备的文档提取开源项目对比

시나리오: 과학 연구 문헌, 서적 및 기타 기본적인 PDF 변환이 필요한 경우, 신속한 배포를 위한 기술적 배경을 가진 사용자에게 적합합니다.

장점: 오픈 소스 및 무료, 빠른 처리 속도(유사 제품 대비 4배 빠름).

🙅‍♀️ 단점: 복잡한 레이아웃 파싱 기능 부족, 로컬 GPU 리소스에 대한 의존도.

https://github.com/VikParuchuri/marker

 

MinerU

기술 아키텍처: LayoutLMv3, YOLOv8 및 기타 모델 통합, 멀티 모달 파싱(테이블/수식/이미지) 지원, Docker 및 CUDA 환경 사용.

기능: PDF 텍스트의 정확한 추출, 머리글/바닥글 자동 필터링, EPUB/MOBI/DOCX에서 Markdown 또는 JSON으로의 변환 지원, 다국어 OCR(84개 언어), 수식 인식에 최적화된 내장형 UniMERNet 모델.

RAG知识库必备的文档提取开源项目对比

적용 가능한 시나리오: 학술 문헌 관리, 재무제표 분석 및 고정밀 구조화가 필요한 기타 시나리오에 적용할 수 있습니다.

장점: API 및 GUI 지원을 통한 엔터프라이즈급 보안 규정 준수.

🙅결함: GPU에 의존, 느린 양식 처리, 복잡한 구성.

https://github.com/opendatalab/MinerU

 

도클링

기술 아키텍처: 모듈식 설계, 비정형, 레이아웃파서 및 기타 라이브러리 통합, 현지화 지원.

기능: PDF/DOCX/PPTX 및 기타 형식 구문 분석, 읽기 순서 및 표 구조 유지, OCR 및 LangChain 통합 지원, 마크다운 또는 JSON 출력.

적용 가능한 시나리오: 기업 계약 해결, 보고서 자동화 및 AI 프레임워크와 결합해야 하는 기타 복잡한 애플리케이션에 적합합니다.

RAG知识库必备的文档提取开源项目对比

✅ 장점: IBM Eco와 호환되며 멀티 포맷 혼합 처리를 지원합니다.

🙅‍♀️ 불충분: CUDA 환경이 필요하며 일부 기능은 상용 모델에 의존합니다.

https://github.com/DS4SD/docling

 

마크다운

기술 아키텍처: Microsoft 오픈 소스 프로젝트, 통합 GPT - 4 및 기타 모델을 통해 AI 향상된 처리, 다중 형식 변환을 지원합니다.

기능: Word/Excel/PPT, 이미지(OCR), 오디오(음성 녹음)를 마크다운으로 지원, ZIP 파일 일괄 처리, 이미지 설명 생성 가능(OpenAI API 필요).

RAG知识库必备的文档提取开源项目对比

시나리오: PPT 차트에서 문서, 오디오 및 비디오 트랜스크립션과 같은 여러 형식의 혼합 콘텐츠 제작에 적합합니다.

장점: 가장 완벽한 형식 지원, 개발자 친화적(Python API/CLI).

🙅‍♀️ 결함: 외부 API에 의존, 일부 기능에 유료 모델이 필요함.

https://github.com/microsoft/markitdown

 

라마파스

기술 아키텍처: 의미 검색을 최적화하기 위해 Azure OpenAI와 KDB AI 벡터 데이터베이스를 결합하여 RAG용으로 설계되었습니다.

기능: 표/차트가 포함된 복잡한 PDF 구문 분석, 마크다운/라텍스/머메이드 차트 출력, 지식 그래프 생성 지원, 엔터프라이즈급 보안 규정 준수.

적용 가능한 시나리오: 법률 문서 분석, 기술 매뉴얼 Q&A 및 LLM과 결합해야 하는 기타 지능형 애플리케이션에 적합합니다.

RAG知识库必备的文档提取开源项目对比

장점: 높은 구문 분석 정확도 및 반정형 데이터의 의미 최적화를 지원합니다.

🙅‍♂️ 단점: 느린 처리 속도, 제한된 무료 크레딧, API 키 필요.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...