MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Últimos recursos sobre IAPublicado hace 2 años Círculo de intercambio de inteligencia artificial

143.4K 00

Introducción general

MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenidos de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de convertir documentos PDF multimodales que contienen imágenes, fórmulas, tablas y otros elementos en un formato Markdown fácil de analizar, lo que mejora enormemente la eficiencia de la preparación de corpus de IA.MinerU consta de dos componentes principales: Magic-PDF y Magic-Doc, que se utilizan para procesar documentos PDF y páginas web y libros electrónicos, respectivamente. La herramienta soporta el funcionamiento multiplataforma y es compatible con los sistemas Windows, Linux y macOS.

Experiencia MinerU en línea modelcopio huggingface

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

Lista de funciones

Eliminación automática de encabezados, pies de página, notas a pie de página y números de página de los PDF
Conserva la estructura y el formato del documento original, como títulos, párrafos, listas, etc.
Convierte imágenes y tablas de documentos a formato Markdown
Convertir fórmulas matemáticas en PDF a formato LaTeX
Compatible con los sistemas operativos Windows, Linux y macOS
Extracción de contenidos de páginas web y libros electrónicos

Utilizar la ayuda

Proceso de instalación

Preparación medioambiental::
- Asegúrese de que Python 3.9 o posterior está instalado en su sistema.
- Se recomienda un entorno virtual (como venv o conda) para evitar conflictos de dependencias.

Instalación de dependencias::

Crear un entorno virtual utilizando conda:

conda create -n MinerU python=3.10
conda activate MinerU

O utiliza venv:

python -m venv MinerU
source MinerU/bin/activate  # 在Linux或macOS上
MinerU\Scripts\activate  # 在Windows上

Instalar Magic-PDF::
- Instala las dependencias, especialmente detectron2, que es un paquete con todas las funciones compilado e instalado. Utilice el siguiente comando para instalar el paquete detectron2 precompilado (sólo Python 3.10):
```
pip install detectron2 --extra-index-url https://wheels.myhloli.com
```
- Instale el paquete completo de Magic-PDF:
```
pip install magic-pdf[full]==0.6.2b1
```
Descargar el archivo de pesos del modelo::
- Descargue el archivo de pesos del modelo siguiendo las instrucciones de la documentación del proyecto y muévalo a un directorio con suficiente espacio en disco, preferiblemente un SSD.
Configurar Magic-PDF::
- Copie el archivo de configuración magic-pdf.template.json del directorio raíz del repositorio a su directorio de trabajo y cámbiele el nombre a magic-pdf.json:
```
cp magic-pdf.template.json ~/magic-pdf.json
```
- Configure "models-dir" en el archivo magic-pdf.json para que apunte al directorio donde se encuentran los pesos del modelo:
```
{
  "models-dir": "/tmp/models"
}
```
Configuración de la aceleración (si es necesaria)::
- Si dispone de una GPU Nvidia o utiliza un Mac con Apple Silicon, puede utilizar CUDA o MPS para la aceleración. Para CUDA, instala la versión de PyTorch que corresponda a tu versión de CUDA:
```
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
```
- Modifica el valor de "device-mode" en el archivo de configuración magic-pdf.json para habilitar la aceleración.

Uso de Magic-PDF

Utilice Magic-PDF a través de la línea de comandos:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

Esto procesará el archivo PDF especificado y guardará el archivo Markdown resultante en el directorio /tmp/magic-pdf.

Uso de Magic-Doc

El proceso de instalación y configuración de Magic-Doc es similar al de Magic-PDF, pero los comandos específicos y los detalles de configuración pueden diferir. Consulte la documentación del proyecto para obtener más información.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

BASE44: Cree rápidamente aplicaciones web completas sin programar

Últimos recursos sobre IA # Programación de IA

hace 1 año

0223.7K

World Labs: Construye un modelo 3D del mundo a partir de una sola imagen, ¡solicita la prueba beta del modelo de Inteligencia Espacial!

Últimos recursos sobre IA # AI Texto e Imagen a 3D

hace 1 año

078K

Azure TTS Importer: integración de servicios de síntesis de voz en el software de lectura

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI texto a voz

hace 1 año

055.9K

Civitai: AI Drawing|Comunidad de intercambio de modelos de generación de imágenes de código abierto|Descarga de modelos Civitai

Últimos recursos sobre IA # AI Ayudas para la generación de imágenes

hace 2 años

072.9K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Uso de Magic-PDF

Uso de Magic-Doc

Questflow: una plataforma de flujo de trabajo automatizado con IA descentralizada que invoca automáticamente la colaboración multiinteligencia basada en tareas.

Lightning: plataforma única de recursos en la nube para el desarrollo de IA que facilita la implantación de aplicaciones de IA

Artículos relacionados

BASE44: Cree rápidamente aplicaciones web completas sin programar

World Labs: Construye un modelo 3D del mundo a partir de una sola imagen, ¡solicita la prueba beta del modelo de Inteligencia Espacial!

Azure TTS Importer: integración de servicios de síntesis de voz en el software de lectura

Civitai: AI Drawing|Comunidad de intercambio de modelos de generación de imágenes de código abierto|Descarga de modelos Civitai

Sin comentarios

Últimas colecciones

Últimos artículos

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Uso de Magic-PDF

Uso de Magic-Doc

Questflow: una plataforma de flujo de trabajo automatizado con IA descentralizada que invoca automáticamente la colaboración multiinteligencia basada en tareas.

Lightning: plataforma única de recursos en la nube para el desarrollo de IA que facilita la implantación de aplicaciones de IA

Artículos relacionados

BASE44: Cree rápidamente aplicaciones web completas sin programar

World Labs: Construye un modelo 3D del mundo a partir de una sola imagen, ¡solicita la prueba beta del modelo de Inteligencia Espacial!

Azure TTS Importer: integración de servicios de síntesis de voz en el software de lectura

Civitai: AI Drawing|Comunidad de intercambio de modelos de generación de imágenes de código abierto|Descarga de modelos Civitai

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos