MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
37.3K 00
堆友AI

일반 소개

MinerU는 상하이 인공지능 연구소의 오픈데이터랩 팀이 개발한 오픈소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지, 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 복합 PDF 문서를 분석하기 쉬운 마크다운 형식으로 변환할 수 있어 AI 코퍼스 준비의 효율성을 크게 향상시키며, MinerU는 PDF 문서와 웹 페이지 및 전자책을 각각 처리하는 데 사용되는 Magic-PDF와 Magic-Doc의 두 가지 주요 구성 요소로 구성되어 있습니다. 이 도구는 크로스 플랫폼 작업을 지원하며 Windows, Linux 및 macOS 시스템과 호환됩니다.

MinerU 온라인 경험모델 범위포옹하는 얼굴

 

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

 

기능 목록

  • PDF에서 머리글, 바닥글, 각주 및 페이지 번호 자동 제거
  • 제목, 단락, 목록 등 원본 문서의 구조와 서식을 그대로 유지합니다.
  • 문서의 이미지와 표를 마크다운 서식으로 변환하기
  • PDF의 수학 공식을 LaTeX 형식으로 변환하기
  • Windows, Linux 및 macOS 운영 체제와 호환 가능
  • 웹 페이지 및 전자책에서 콘텐츠 추출 지원

 

도움말 사용

설치 프로세스

  1. 환경 준비::
    • 시스템에 Python 3.9 이상이 설치되어 있는지 확인합니다.
    • 종속성 충돌을 피하려면 가상 환경(예: venv 또는 conda)을 사용하는 것이 좋습니다.
  2. 종속성 설치::
    • 콘다를 사용하여 가상 환경을 만듭니다:
      conda create -n MinerU python=3.10
      conda activate MinerU
      
    • 또는 venv를 사용하세요:
      python -m venv MinerU
      source MinerU/bin/activate  # 在Linux或macOS上
      MinerU\Scripts\activate  # 在Windows上
      
  3. Magic-PDF 설치::
    • 종속성, 특히 모든 기능이 컴파일되어 설치되는 패키지인 detectron2를 설치합니다. 다음 명령어를 사용하여 미리 컴파일된 detectron2 패키지를 설치합니다(Python 3.10만 해당):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Magic-PDF의 모든 기능을 갖춘 패키지를 설치하세요:
      pip install magic-pdf[full]==0.6.2b1
      
  4. 모델 가중치 파일 다운로드::
    • 프로젝트 설명서의 지침에 따라 모델 가중치 파일을 다운로드하고 충분한 디스크 공간이 있는 디렉토리(가급적 SSD)로 옮깁니다.
  5. Magic-PDF 구성::
    • 리포지토리의 루트 디렉터리에서 작업 디렉터리로 magic-pdf.template.json 구성 파일을 복사하고 이름을 magic-pdf.json으로 바꿉니다:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • magic-pdf.json 파일의 "models-dir"이 모델 가중치가 있는 디렉터리를 가리키도록 구성합니다:
      {
        "models-dir": "/tmp/models"
      }
      
  6. 가속 구성(필요한 경우)::
    • 사용 가능한 Nvidia GPU가 있거나 Apple Silicon이 탑재된 Mac을 사용하는 경우 CUDA 또는 MPS를 사용하여 가속할 수 있습니다. CUDA의 경우 사용 중인 CUDA 버전에 해당하는 PyTorch 버전을 설치하세요:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • magic-pdf.json 구성 파일에서 "device-mode" 값을 수정하여 가속을 사용하도록 설정합니다.

Magic-PDF 사용

명령줄을 통해 Magic-PDF를 사용합니다:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

이렇게 하면 지정된 PDF 파일이 처리되고 결과 마크다운 파일이 /tmp/magic-pdf 디렉터리에 저장됩니다.

Magic-Doc 사용

Magic-Doc의 설치 및 구성 프로세스는 Magic-PDF와 비슷하지만 구체적인 명령어와 구성 세부 사항은 다를 수 있습니다. 자세한 내용은 해당 프로젝트의 설명서를 참조하세요.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...