RAG 지식 기반 필수 문서 추출 오픈 소스 프로젝트 비교

AI 기술 자료5개월 전에 게시 됨 AI 공유 서클
1.5K 00

최근 저는 스마트 고객 서비스 프로젝트를 선정하고 있었습니다. RAG 지식창고 데이터 처리 도구, 현재 주류 문서 처리 프로젝트인 olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse 등 6가지 도구에 대해 새롭게 살펴보고 간략하게 비교하는 글입니다. 종합적인 관점. MinerU 문서 추출은 더 일반적이며 모든 종류의 시나리오에 적합하지만 다른 문서 제안 도구에는 고유 한 특성이 있으므로 필요에 따라 선택하십시오.

 

olmOCR

기술 아키텍처: 대규모 언어 모델을 기반으로 완전한 PDF 처리 프로세스를 구축합니다. 분산 아키텍처를 사용하여 단일 및 다중 노드 병렬 처리를 지원하며, sglang을 사용하여 GPU 가속 추론을 구현합니다.

기능적 특징: 고품질 텍스트 추출 기능으로 복잡한 PDF에서 구조화된 일반 텍스트를 추출하고 여러 열 레이아웃, 표, 수학 방정식 및 손글씨 콘텐츠를 올바르게 처리할 수 있습니다. 결과를 마크다운 형식으로 출력하고, 1,000,000개의 PDF 페이지를 처리하는 데 약 $190의 비용이 들며, Marker, MinerU, GOT-OCR 2.0 및 기타 유사한 도구보다 성능이 뛰어납니다.

RAG知识库必备的文档提取开源项目对比

적용 가능한 시나리오: 학술 문서의 디지털화, 엔터프라이즈급 문서 저장소의 변환, AI 학습 데이터 세트 구축, 과거 문서 콘텐츠 복구.

장점: 오픈 소스 프로젝트, 높은 구문 분석 품질, 상용 API보다 저렴한 비용, 뛰어난 성능.

단점: 높은 임계값 사용, 다양한 시스템 종속성 필요, 아직 개발 초기 단계로 문서 개선이 필요, 현재 PDF 및 이미지 구문 분석만 지원.

https://github.com/allenai/olmocr

 

마커

기술 아키텍처: PyMuPDF 및 테서랙트 OCR 기반, GPU 가속 지원(수리야 OCR 엔진), 오픈 소스 경량화.

기능: PDF를 마크다운으로 변환, 수식을 라텍스로 변환, 이미지 인라인 보존, 스캔한 PDF의 OCR 인식, 다국어 문서 처리 가능에 중점을 둡니다.

RAG知识库必备的文档提取开源项目对比

시나리오: 과학 연구 문헌, 서적 및 기타 기본적인 PDF 변환이 필요한 경우, 신속한 배포를 위한 기술적 배경을 가진 사용자에게 적합합니다.

장점: 오픈 소스 및 무료, 빠른 처리 속도(유사 제품 대비 4배 빠름).

🙅‍♀️ 단점: 복잡한 레이아웃 파싱 기능 부족, 로컬 GPU 리소스에 대한 의존도.

https://github.com/VikParuchuri/marker

 

MinerU

기술 아키텍처: LayoutLMv3, YOLOv8 및 기타 모델 통합, 멀티 모달 파싱(테이블/수식/이미지) 지원, Docker 및 CUDA 환경 사용.

기능: PDF 텍스트의 정확한 추출, 머리글/바닥글 자동 필터링, EPUB/MOBI/DOCX에서 Markdown 또는 JSON으로의 변환 지원, 다국어 OCR(84개 언어), 수식 인식에 최적화된 내장형 UniMERNet 모델.

RAG知识库必备的文档提取开源项目对比

적용 가능한 시나리오: 학술 문헌 관리, 재무제표 분석 및 고정밀 구조화가 필요한 기타 시나리오에 적용할 수 있습니다.

장점: API 및 GUI 지원을 통한 엔터프라이즈급 보안 규정 준수.

🙅결함: GPU에 의존, 느린 양식 처리, 복잡한 구성.

https://github.com/opendatalab/MinerU

 

도클링

기술 아키텍처: 모듈식 설계, 비정형, 레이아웃파서 및 기타 라이브러리 통합, 현지화 지원.

기능: PDF/DOCX/PPTX 및 기타 형식 구문 분석, 읽기 순서 및 표 구조 유지, OCR 및 LangChain 통합 지원, 마크다운 또는 JSON 출력.

적용 가능한 시나리오: 기업 계약 해결, 보고서 자동화 및 AI 프레임워크와 결합해야 하는 기타 복잡한 애플리케이션에 적합합니다.

RAG知识库必备的文档提取开源项目对比

✅ 장점: IBM Eco와 호환되며 멀티 포맷 혼합 처리를 지원합니다.

🙅‍♀️ 불충분: CUDA 환경이 필요하며 일부 기능은 상용 모델에 의존합니다.

https://github.com/DS4SD/docling

 

마크다운

기술 아키텍처: Microsoft 오픈 소스 프로젝트, 통합 GPT - 4 및 기타 모델을 통해 AI 향상된 처리, 다중 형식 변환을 지원합니다.

기능: Word/Excel/PPT, 이미지(OCR), 오디오(음성 녹음)를 마크다운으로 지원, ZIP 파일 일괄 처리, 이미지 설명 생성 가능(OpenAI API 필요).

RAG知识库必备的文档提取开源项目对比

시나리오: PPT 차트에서 문서, 오디오 및 비디오 트랜스크립션과 같은 여러 형식의 혼합 콘텐츠 제작에 적합합니다.

장점: 가장 완벽한 형식 지원, 개발자 친화적(Python API/CLI).

🙅‍♀️ 결함: 외부 API에 의존, 일부 기능에 유료 모델이 필요함.

https://github.com/microsoft/markitdown

 

라마파스

기술 아키텍처: 의미 검색을 최적화하기 위해 Azure OpenAI와 KDB AI 벡터 데이터베이스를 결합하여 RAG용으로 설계되었습니다.

기능: 표/차트가 포함된 복잡한 PDF 구문 분석, 마크다운/라텍스/머메이드 차트 출력, 지식 그래프 생성 지원, 엔터프라이즈급 보안 규정 준수.

적용 가능한 시나리오: 법률 문서 분석, 기술 매뉴얼 Q&A 및 LLM과 결합해야 하는 기타 지능형 애플리케이션에 적합합니다.

RAG知识库必备的文档提取开源项目对比

장점: 높은 구문 분석 정확도 및 반정형 데이터의 의미 최적화를 지원합니다.

🙅‍♂️ 단점: 느린 처리 속도, 제한된 무료 크레딧, API 키 필요.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...