MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원

최신 AI 리소스11개월 전에 게시 됨 AI 공유 서클
22.9K 00

일반 소개

MinerU는 상하이 인공지능 연구소의 오픈데이터랩 팀이 개발한 오픈소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지, 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 복합 PDF 문서를 분석하기 쉬운 마크다운 형식으로 변환할 수 있어 AI 코퍼스 준비의 효율성을 크게 향상시키며, MinerU는 PDF 문서와 웹 페이지 및 전자책을 각각 처리하는 데 사용되는 Magic-PDF와 Magic-Doc의 두 가지 주요 구성 요소로 구성되어 있습니다. 이 도구는 크로스 플랫폼 작업을 지원하며 Windows, Linux 및 macOS 시스템과 호환됩니다.

MinerU 온라인 경험모델 범위포옹하는 얼굴

 

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

 

기능 목록

  • PDF에서 머리글, 바닥글, 각주 및 페이지 번호 자동 제거
  • 제목, 단락, 목록 등 원본 문서의 구조와 서식을 그대로 유지합니다.
  • 문서의 이미지와 표를 마크다운 서식으로 변환하기
  • PDF의 수학 공식을 LaTeX 형식으로 변환하기
  • Windows, Linux 및 macOS 운영 체제와 호환 가능
  • 웹 페이지 및 전자책에서 콘텐츠 추출 지원

 

도움말 사용

설치 프로세스

  1. 환경 준비::
    • 시스템에 Python 3.9 이상이 설치되어 있는지 확인합니다.
    • 종속성 충돌을 피하려면 가상 환경(예: venv 또는 conda)을 사용하는 것이 좋습니다.
  2. 종속성 설치::
    • 콘다를 사용하여 가상 환경을 만듭니다:
      conda create -n MinerU python=3.10
      conda activate MinerU
      
    • 또는 venv를 사용하세요:
      python -m venv MinerU
      source MinerU/bin/activate  # 在Linux或macOS上
      MinerU\Scripts\activate  # 在Windows上
      
  3. Magic-PDF 설치::
    • 종속성, 특히 모든 기능이 컴파일되어 설치되는 패키지인 detectron2를 설치합니다. 다음 명령어를 사용하여 미리 컴파일된 detectron2 패키지를 설치합니다(Python 3.10만 해당):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Magic-PDF의 모든 기능을 갖춘 패키지를 설치하세요:
      pip install magic-pdf[full]==0.6.2b1
      
  4. 모델 가중치 파일 다운로드::
    • 프로젝트 설명서의 지침에 따라 모델 가중치 파일을 다운로드하고 충분한 디스크 공간이 있는 디렉토리(가급적 SSD)로 옮깁니다.
  5. Magic-PDF 구성::
    • 리포지토리의 루트 디렉터리에서 작업 디렉터리로 magic-pdf.template.json 구성 파일을 복사하고 이름을 magic-pdf.json으로 바꿉니다:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • magic-pdf.json 파일의 "models-dir"이 모델 가중치가 있는 디렉터리를 가리키도록 구성합니다:
      {
        "models-dir": "/tmp/models"
      }
      
  6. 가속 구성(필요한 경우)::
    • 사용 가능한 Nvidia GPU가 있거나 Apple Silicon이 탑재된 Mac을 사용하는 경우 CUDA 또는 MPS를 사용하여 가속할 수 있습니다. CUDA의 경우 사용 중인 CUDA 버전에 해당하는 PyTorch 버전을 설치하세요:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • magic-pdf.json 구성 파일에서 "device-mode" 값을 수정하여 가속을 사용하도록 설정합니다.

Magic-PDF 사용

명령줄을 통해 Magic-PDF를 사용합니다:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

이렇게 하면 지정된 PDF 파일이 처리되고 결과 마크다운 파일이 /tmp/magic-pdf 디렉터리에 저장됩니다.

Magic-Doc 사용

Magic-Doc의 설치 및 구성 프로세스는 Magic-PDF와 비슷하지만 구체적인 명령어와 구성 세부 사항은 다를 수 있습니다. 자세한 내용은 해당 프로젝트의 설명서를 참조하세요.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...