MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

142K 00

综合介绍

MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具，专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式，极大地提高了AI语料准备效率。MinerU包括两个主要组件：Magic-PDF和Magic-Doc，分别用于处理PDF文档和网页、电子书。该工具支持跨平台操作，兼容Windows、Linux和macOS系统。

MinerU 在线体验 modelscope huggingface

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

功能列表

自动去除PDF中的页眉、页脚、脚注和页码
保留原始文档的标题、段落、列表等结构和格式
将文档中的图像和表格转换为Markdown格式
将PDF中的数学公式转换为LaTeX格式
兼容Windows、Linux和macOS操作系统
支持从网页和电子书中提取内容

使用帮助

安装流程

环境准备：
- 确保系统上安装了Python 3.9或更高版本。
- 推荐使用虚拟环境（如venv或conda）以避免依赖冲突。

安装依赖：

使用conda创建虚拟环境：

conda create -n MinerU python=3.10
conda activate MinerU

或者使用venv：

python -m venv MinerU
source MinerU/bin/activate  # 在Linux或macOS上
MinerU\Scripts\activate  # 在Windows上

安装Magic-PDF：
- 安装依赖项，特别是detectron2，这是一个编译安装的全功能包。使用以下命令安装预编译的detectron2包（仅限于Python 3.10）：
```
pip install detectron2 --extra-index-url https://wheels.myhloli.com
```
- 安装Magic-PDF的全功能包：
```
pip install magic-pdf[full]==0.6.2b1
```
下载模型权重文件：
- 根据项目文档中的指示下载模型权重文件，并将其移动到具有足够磁盘空间的目录中，最好是SSD。
配置Magic-PDF：
- 从仓库的根目录复制magic-pdf.template.json配置文件到你的工作目录，并重命名为magic-pdf.json：
```
cp magic-pdf.template.json ~/magic-pdf.json
```
- 在magic-pdf.json文件中配置"models-dir"指向模型权重文件所在的目录：
```
{
  "models-dir": "/tmp/models"
}
```
加速配置（如果需要）：
- 如果有可用的Nvidia GPU或使用搭载Apple Silicon的Mac，可以使用CUDA或MPS进行加速。对于CUDA，安装与你的CUDA版本相对应的PyTorch版本：
```
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
```
- 修改magic-pdf.json配置文件中的"device-mode"值以启用加速。

使用Magic-PDF

通过命令行使用Magic-PDF：

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

这将处理指定的PDF文件，并将生成的Markdown文件保存在/tmp/magic-pdf目录下。

使用Magic-Doc

Magic-Doc的安装和配置过程与Magic-PDF类似，但具体的命令和配置细节可能有所不同。参考项目的文档来获取更多信息。

文章版权归 AI分享圈所有，未经允许请勿转载。

shadcn/ui：组件库构建平台

最新AI资源 # AI开放服务

2年前

062.5K

Extract.fun：开源网站图片提取工具，利用Cloudflare浏览器渲染

最新AI资源 # AI开源项目

1年前

052.1K

Cloud Document Converter：飞书文档下载插件，飞书云文档转换为本地Markdown格式文档

最新AI资源 # AI开源项目

1年前

059.1K

Siri Ultra：把苹果Siri换成DeepSeeK-R1/ChatGPT，实现更智能对话和在线搜索

最新AI资源 # AI本地化聊天应用

1年前

080.8K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

综合介绍

功能列表

使用帮助

安装流程

使用Magic-PDF

使用Magic-Doc

Questflow：去中心化AI自动化工作流平台，根据任务自动调用多智能体协作

Lightning：一站式AI开发云端资源平台，轻松部署AI应用

相关文章

shadcn/ui：组件库构建平台

Extract.fun：开源网站图片提取工具，利用Cloudflare浏览器渲染

Cloud Document Converter：飞书文档下载插件，飞书云文档转换为本地Markdown格式文档

Siri Ultra：把苹果Siri换成DeepSeeK-R1/ChatGPT，实现更智能对话和在线搜索

暂无评论

最新收录

最新文章

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

综合介绍

功能列表

使用帮助

安装流程

使用Magic-PDF

使用Magic-Doc

Questflow：去中心化AI自动化工作流平台，根据任务自动调用多智能体协作

Lightning：一站式AI开发云端资源平台，轻松部署AI应用

相关文章

shadcn/ui：组件库构建平台

Extract.fun：开源网站图片提取工具，利用Cloudflare浏览器渲染

Cloud Document Converter：飞书文档下载插件，飞书云文档转换为本地Markdown格式文档

Siri Ultra：把苹果Siri换成DeepSeeK-R1/ChatGPT，实现更智能对话和在线搜索

暂无评论

AI工具精选

最新收录

最新文章