MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos
Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial 22.8K 00
Introducción general
MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenidos de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de convertir documentos PDF multimodales que contienen imágenes, fórmulas, tablas y otros elementos en un formato Markdown fácil de analizar, lo que mejora enormemente la eficiencia de la preparación de corpus de IA.MinerU consta de dos componentes principales: Magic-PDF y Magic-Doc, que se utilizan para procesar documentos PDF y páginas web y libros electrónicos, respectivamente. La herramienta soporta el funcionamiento multiplataforma y es compatible con los sistemas Windows, Linux y macOS.
Experiencia MinerU en líneamodelcopiohuggingface

Lista de funciones
- Eliminación automática de encabezados, pies de página, notas a pie de página y números de página de los PDF
- Conserva la estructura y el formato del documento original, como títulos, párrafos, listas, etc.
- Convierte imágenes y tablas de documentos a formato Markdown
- Convertir fórmulas matemáticas en PDF a formato LaTeX
- Compatible con los sistemas operativos Windows, Linux y macOS
- Extracción de contenidos de páginas web y libros electrónicos
Utilizar la ayuda
Proceso de instalación
- Preparación medioambiental::
- Asegúrese de que Python 3.9 o posterior está instalado en su sistema.
- Se recomienda un entorno virtual (como venv o conda) para evitar conflictos de dependencias.
- Instalación de dependencias::
- Crear un entorno virtual utilizando conda:
conda create -n MinerU python=3.10 conda activate MinerU
- O utiliza venv:
python -m venv MinerU source MinerU/bin/activate # 在Linux或macOS上 MinerU\Scripts\activate # 在Windows上
- Crear un entorno virtual utilizando conda:
- Instalar Magic-PDF::
- Instala las dependencias, especialmente detectron2, que es un paquete con todas las funciones compilado e instalado. Utilice el siguiente comando para instalar el paquete detectron2 precompilado (sólo Python 3.10):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Instale el paquete completo de Magic-PDF:
pip install magic-pdf[full]==0.6.2b1
- Instala las dependencias, especialmente detectron2, que es un paquete con todas las funciones compilado e instalado. Utilice el siguiente comando para instalar el paquete detectron2 precompilado (sólo Python 3.10):
- Descargar el archivo de pesos del modelo::
- Descargue el archivo de pesos del modelo siguiendo las instrucciones de la documentación del proyecto y muévalo a un directorio con suficiente espacio en disco, preferiblemente un SSD.
- Configurar Magic-PDF::
- Copie el archivo de configuración magic-pdf.template.json del directorio raíz del repositorio a su directorio de trabajo y cámbiele el nombre a magic-pdf.json:
cp magic-pdf.template.json ~/magic-pdf.json
- Configure "models-dir" en el archivo magic-pdf.json para que apunte al directorio donde se encuentran los pesos del modelo:
{ "models-dir": "/tmp/models" }
- Copie el archivo de configuración magic-pdf.template.json del directorio raíz del repositorio a su directorio de trabajo y cámbiele el nombre a magic-pdf.json:
- Configuración de la aceleración (si es necesaria)::
- Si dispone de una GPU Nvidia o utiliza un Mac con Apple Silicon, puede utilizar CUDA o MPS para la aceleración. Para CUDA, instala la versión de PyTorch que corresponda a tu versión de CUDA:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- Modifica el valor de "device-mode" en el archivo de configuración magic-pdf.json para habilitar la aceleración.
- Si dispone de una GPU Nvidia o utiliza un Mac con Apple Silicon, puede utilizar CUDA o MPS para la aceleración. Para CUDA, instala la versión de PyTorch que corresponda a tu versión de CUDA:
Uso de Magic-PDF
Utilice Magic-PDF a través de la línea de comandos:
magic-pdf pdf-command --pdf "pdf_path" --inside_model true
Esto procesará el archivo PDF especificado y guardará el archivo Markdown resultante en el directorio /tmp/magic-pdf.
Uso de Magic-Doc
El proceso de instalación y configuración de Magic-Doc es similar al de Magic-PDF, pero los comandos específicos y los detalles de configuración pueden diferir. Consulte la documentación del proyecto para obtener más información.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...