MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción general

MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenidos de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de convertir documentos PDF multimodales que contienen imágenes, fórmulas, tablas y otros elementos en un formato Markdown fácil de analizar, lo que mejora enormemente la eficiencia de la preparación de corpus de IA.MinerU consta de dos componentes principales: Magic-PDF y Magic-Doc, que se utilizan para procesar documentos PDF y páginas web y libros electrónicos, respectivamente. La herramienta soporta el funcionamiento multiplataforma y es compatible con los sistemas Windows, Linux y macOS.

Experiencia MinerU en líneamodelcopiohuggingface

 

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

 

Lista de funciones

  • Eliminación automática de encabezados, pies de página, notas a pie de página y números de página de los PDF
  • Conserva la estructura y el formato del documento original, como títulos, párrafos, listas, etc.
  • Convierte imágenes y tablas de documentos a formato Markdown
  • Convertir fórmulas matemáticas en PDF a formato LaTeX
  • Compatible con los sistemas operativos Windows, Linux y macOS
  • Extracción de contenidos de páginas web y libros electrónicos

 

Utilizar la ayuda

Proceso de instalación

  1. Preparación medioambiental::
    • Asegúrese de que Python 3.9 o posterior está instalado en su sistema.
    • Se recomienda un entorno virtual (como venv o conda) para evitar conflictos de dependencias.
  2. Instalación de dependencias::
    • Crear un entorno virtual utilizando conda:
      conda create -n MinerU python=3.10
      conda activate MinerU
      
    • O utiliza venv:
      python -m venv MinerU
      source MinerU/bin/activate  # 在Linux或macOS上
      MinerU\Scripts\activate  # 在Windows上
      
  3. Instalar Magic-PDF::
    • Instala las dependencias, especialmente detectron2, que es un paquete con todas las funciones compilado e instalado. Utilice el siguiente comando para instalar el paquete detectron2 precompilado (sólo Python 3.10):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Instale el paquete completo de Magic-PDF:
      pip install magic-pdf[full]==0.6.2b1
      
  4. Descargar el archivo de pesos del modelo::
    • Descargue el archivo de pesos del modelo siguiendo las instrucciones de la documentación del proyecto y muévalo a un directorio con suficiente espacio en disco, preferiblemente un SSD.
  5. Configurar Magic-PDF::
    • Copie el archivo de configuración magic-pdf.template.json del directorio raíz del repositorio a su directorio de trabajo y cámbiele el nombre a magic-pdf.json:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • Configure "models-dir" en el archivo magic-pdf.json para que apunte al directorio donde se encuentran los pesos del modelo:
      {
        "models-dir": "/tmp/models"
      }
      
  6. Configuración de la aceleración (si es necesaria)::
    • Si dispone de una GPU Nvidia o utiliza un Mac con Apple Silicon, puede utilizar CUDA o MPS para la aceleración. Para CUDA, instala la versión de PyTorch que corresponda a tu versión de CUDA:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • Modifica el valor de "device-mode" en el archivo de configuración magic-pdf.json para habilitar la aceleración.

Uso de Magic-PDF

Utilice Magic-PDF a través de la línea de comandos:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

Esto procesará el archivo PDF especificado y guardará el archivo Markdown resultante en el directorio /tmp/magic-pdf.

Uso de Magic-Doc

El proceso de instalación y configuración de Magic-Doc es similar al de Magic-PDF, pero los comandos específicos y los detalles de configuración pueden diferir. Consulte la documentación del proyecto para obtener más información.

© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...