综合介绍
MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式,极大地提高了AI语料准备效率。MinerU包括两个主要组件:Magic-PDF和Magic-Doc,分别用于处理PDF文档和网页、电子书。该工具支持跨平台操作,兼容Windows、Linux和macOS系统。
MinerU 在线体验 modelscope huggingface
功能列表
- 自动去除PDF中的页眉、页脚、脚注和页码
- 保留原始文档的标题、段落、列表等结构和格式
- 将文档中的图像和表格转换为Markdown格式
- 将PDF中的数学公式转换为LaTeX格式
- 兼容Windows、Linux和macOS操作系统
- 支持从网页和电子书中提取内容
使用帮助
安装流程
- 环境准备:
- 确保系统上安装了Python 3.9或更高版本。
- 推荐使用虚拟环境(如venv或conda)以避免依赖冲突。
- 安装依赖:
- 使用conda创建虚拟环境:
conda create -n MinerU python=3.10 conda activate MinerU
- 或者使用venv:
python -m venv MinerU source MinerU/bin/activate # 在Linux或macOS上 MinerU\Scripts\activate # 在Windows上
- 使用conda创建虚拟环境:
- 安装Magic-PDF:
- 安装依赖项,特别是detectron2,这是一个编译安装的全功能包。使用以下命令安装预编译的detectron2包(仅限于Python 3.10):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- 安装Magic-PDF的全功能包:
pip install magic-pdf[full]==0.6.2b1
- 安装依赖项,特别是detectron2,这是一个编译安装的全功能包。使用以下命令安装预编译的detectron2包(仅限于Python 3.10):
- 下载模型权重文件:
- 根据项目文档中的指示下载模型权重文件,并将其移动到具有足够磁盘空间的目录中,最好是SSD。
- 配置Magic-PDF:
- 从仓库的根目录复制magic-pdf.template.json配置文件到你的工作目录,并重命名为magic-pdf.json:
cp magic-pdf.template.json ~/magic-pdf.json
- 在magic-pdf.json文件中配置"models-dir"指向模型权重文件所在的目录:
{ "models-dir": "/tmp/models" }
- 从仓库的根目录复制magic-pdf.template.json配置文件到你的工作目录,并重命名为magic-pdf.json:
- 加速配置(如果需要):
- 如果有可用的Nvidia GPU或使用搭载Apple Silicon的Mac,可以使用CUDA或MPS进行加速。对于CUDA,安装与你的CUDA版本相对应的PyTorch版本:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- 修改magic-pdf.json配置文件中的"device-mode"值以启用加速。
- 如果有可用的Nvidia GPU或使用搭载Apple Silicon的Mac,可以使用CUDA或MPS进行加速。对于CUDA,安装与你的CUDA版本相对应的PyTorch版本:
使用Magic-PDF
通过命令行使用Magic-PDF:
magic-pdf pdf-command --pdf "pdf_path" --inside_model true
这将处理指定的PDF文件,并将生成的Markdown文件保存在/tmp/magic-pdf目录下。
使用Magic-Doc
Magic-Doc的安装和配置过程与Magic-PDF类似,但具体的命令和配置细节可能有所不同。参考项目的文档来获取更多信息。