AI个人学习
和实操指南

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

综合介绍

MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式,极大地提高了AI语料准备效率。MinerU包括两个主要组件:Magic-PDF和Magic-Doc,分别用于处理PDF文档和网页、电子书。该工具支持跨平台操作,兼容Windows、Linux和macOS系统。

MinerU 在线体验 modelscope huggingface

 

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-1

 

功能列表

  • 自动去除PDF中的页眉、页脚、脚注和页码
  • 保留原始文档的标题、段落、列表等结构和格式
  • 将文档中的图像和表格转换为Markdown格式
  • 将PDF中的数学公式转换为LaTeX格式
  • 兼容Windows、Linux和macOS操作系统
  • 支持从网页和电子书中提取内容

 

使用帮助

安装流程

  1. 环境准备
    • 确保系统上安装了Python 3.9或更高版本。
    • 推荐使用虚拟环境(如venv或conda)以避免依赖冲突。
  2. 安装依赖
    • 使用conda创建虚拟环境:
      conda create -n MinerU python=3.10
      conda activate MinerU
      
    • 或者使用venv:
      python -m venv MinerU
      source MinerU/bin/activate  # 在Linux或macOS上
      MinerU\Scripts\activate  # 在Windows上
      
  3. 安装Magic-PDF
    • 安装依赖项,特别是detectron2,这是一个编译安装的全功能包。使用以下命令安装预编译的detectron2包(仅限于Python 3.10):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • 安装Magic-PDF的全功能包:
      pip install magic-pdf[full]==0.6.2b1
      
  4. 下载模型权重文件
    • 根据项目文档中的指示下载模型权重文件,并将其移动到具有足够磁盘空间的目录中,最好是SSD。
  5. 配置Magic-PDF
    • 从仓库的根目录复制magic-pdf.template.json配置文件到你的工作目录,并重命名为magic-pdf.json:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • 在magic-pdf.json文件中配置"models-dir"指向模型权重文件所在的目录:
      {
        "models-dir": "/tmp/models"
      }
      
  6. 加速配置(如果需要)
    • 如果有可用的Nvidia GPU或使用搭载Apple Silicon的Mac,可以使用CUDA或MPS进行加速。对于CUDA,安装与你的CUDA版本相对应的PyTorch版本:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • 修改magic-pdf.json配置文件中的"device-mode"值以启用加速。

使用Magic-PDF

通过命令行使用Magic-PDF:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

这将处理指定的PDF文件,并将生成的Markdown文件保存在/tmp/magic-pdf目录下。

使用Magic-Doc

Magic-Doc的安装和配置过程与Magic-PDF类似,但具体的命令和配置细节可能有所不同。参考项目的文档来获取更多信息。

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描
分享到

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们