일반 소개
MinerU는 상하이 인공지능 연구소의 오픈데이터랩 팀이 개발한 오픈소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지, 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 복합 PDF 문서를 분석하기 쉬운 마크다운 형식으로 변환할 수 있어 AI 코퍼스 준비의 효율성을 크게 향상시키며, MinerU는 PDF 문서와 웹 페이지 및 전자책을 각각 처리하는 데 사용되는 Magic-PDF와 Magic-Doc의 두 가지 주요 구성 요소로 구성되어 있습니다. 이 도구는 크로스 플랫폼 작업을 지원하며 Windows, Linux 및 macOS 시스템과 호환됩니다.

기능 목록
- PDF에서 머리글, 바닥글, 각주 및 페이지 번호 자동 제거
- 제목, 단락, 목록 등 원본 문서의 구조와 서식을 그대로 유지합니다.
- 문서의 이미지와 표를 마크다운 서식으로 변환하기
- PDF의 수학 공식을 LaTeX 형식으로 변환하기
- Windows, Linux 및 macOS 운영 체제와 호환 가능
- 웹 페이지 및 전자책에서 콘텐츠 추출 지원
도움말 사용
설치 프로세스
- 환경 준비::
- 시스템에 Python 3.9 이상이 설치되어 있는지 확인합니다.
- 종속성 충돌을 피하려면 가상 환경(예: venv 또는 conda)을 사용하는 것이 좋습니다.
- 종속성 설치::
- 콘다를 사용하여 가상 환경을 만듭니다:
conda create -n MinerU python=3.10 conda activate MinerU
- 또는 venv를 사용하세요:
python -m venv MinerU source MinerU/bin/activate # 在Linux或macOS上 MinerU\Scripts\activate # 在Windows上
- 콘다를 사용하여 가상 환경을 만듭니다:
- Magic-PDF 설치::
- 종속성, 특히 모든 기능이 컴파일되어 설치되는 패키지인 detectron2를 설치합니다. 다음 명령어를 사용하여 미리 컴파일된 detectron2 패키지를 설치합니다(Python 3.10만 해당):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Magic-PDF의 모든 기능을 갖춘 패키지를 설치하세요:
pip install magic-pdf[full]==0.6.2b1
- 종속성, 특히 모든 기능이 컴파일되어 설치되는 패키지인 detectron2를 설치합니다. 다음 명령어를 사용하여 미리 컴파일된 detectron2 패키지를 설치합니다(Python 3.10만 해당):
- 모델 가중치 파일 다운로드::
- 프로젝트 설명서의 지침에 따라 모델 가중치 파일을 다운로드하고 충분한 디스크 공간이 있는 디렉토리(가급적 SSD)로 옮깁니다.
- Magic-PDF 구성::
- 리포지토리의 루트 디렉터리에서 작업 디렉터리로 magic-pdf.template.json 구성 파일을 복사하고 이름을 magic-pdf.json으로 바꿉니다:
cp magic-pdf.template.json ~/magic-pdf.json
- magic-pdf.json 파일의 "models-dir"이 모델 가중치가 있는 디렉터리를 가리키도록 구성합니다:
{ "models-dir": "/tmp/models" }
- 리포지토리의 루트 디렉터리에서 작업 디렉터리로 magic-pdf.template.json 구성 파일을 복사하고 이름을 magic-pdf.json으로 바꿉니다:
- 가속 구성(필요한 경우)::
- 사용 가능한 Nvidia GPU가 있거나 Apple Silicon이 탑재된 Mac을 사용하는 경우 CUDA 또는 MPS를 사용하여 가속할 수 있습니다. CUDA의 경우 사용 중인 CUDA 버전에 해당하는 PyTorch 버전을 설치하세요:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- magic-pdf.json 구성 파일에서 "device-mode" 값을 수정하여 가속을 사용하도록 설정합니다.
- 사용 가능한 Nvidia GPU가 있거나 Apple Silicon이 탑재된 Mac을 사용하는 경우 CUDA 또는 MPS를 사용하여 가속할 수 있습니다. CUDA의 경우 사용 중인 CUDA 버전에 해당하는 PyTorch 버전을 설치하세요:
Magic-PDF 사용
명령줄을 통해 Magic-PDF를 사용합니다:
magic-pdf pdf-command --pdf "pdf_path" --inside_model true
이렇게 하면 지정된 PDF 파일이 처리되고 결과 마크다운 파일이 /tmp/magic-pdf 디렉터리에 저장됩니다.
Magic-Doc 사용
Magic-Doc의 설치 및 구성 프로세스는 Magic-PDF와 비슷하지만 구체적인 명령어와 구성 세부 사항은 다를 수 있습니다. 자세한 내용은 해당 프로젝트의 설명서를 참조하세요.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...