Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

119.8K 00

Introducción general

Marker es una herramienta de procesamiento de documentos basada en el aprendizaje profundo y diseñada para convertir archivos PDF al formato Markdown con rapidez y precisión. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizada para convertir libros y artículos científicos.Marker es capaz de eliminar contenido redundante como encabezados y pies de página, formatear tablas y bloques de código, y extraer y guardar imágenes. También convierte la mayoría de las fórmulas al formato LaTeX y admite la ejecución en GPU, CPU o MPS.

Lista de funciones

Convierte archivos PDF a formato Markdown
Compatibilidad con varios tipos de documentos, incluidos libros y artículos científicos
Elimine el exceso de contenido, como encabezados y pies de página.
Formato de tablas y bloques de código
Extraer y guardar imágenes
Convierta la mayoría de las ecuaciones al formato LaTeX
Compatible con GPU, CPU y MPS

Utilizar la ayuda

Proceso de instalación

Instalación de dependenciasAsegúrese de que Python 3.6 y superior está instalado, y que las siguientes dependencias están instaladas:
```
pip install marker-pdf
```

ejemplo de funcionamiento::

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10

Normas de uso

Conversión de archivos individuales

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10

--batch_multiplier es un múltiplo del tamaño de lote por defecto si tienes VRAM extra. Los números más altos utilizarán más VRAM, pero son más rápidos de procesar. El valor por defecto es 2. El tamaño de lote por defecto requiere aproximadamente 3GB de VRAM.
--max_pages es el número máximo de páginas a procesar. Si se omite este elemento, se convertirá todo el documento.
--langs es una lista opcional separada por comas de los idiomas del documento que se utilizarán para el OCR. es opcional por defecto y debe proporcionarse si se utiliza tesseract.
--ocr_all_pages es un parámetro opcional para forzar el OCR de todas las páginas del PDF, si este parámetro o la variable de entorno `OCR_ALL_PAGES` es verdadero, se forzará el OCR.

Encontrará una lista de los idiomas Surya OCR compatibles en [aquí estánencontrado. Si necesita más idiomas, puede utilizar cualquiera de los idiomas admitidos, sólo tiene que establecer el parámetro OCR_ENGINE ajustado a ocrmypdfSi no se requiere OCR, los marcadores pueden admitir cualquier idioma. Si no se requiere OCR, el marcador puede admitir cualquier idioma.

Convertir varios archivos

marker /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000

--workers es el número de PDF convertidos simultáneamente. El valor predeterminado es 1, pero puede incrementarlo para aumentar el rendimiento a costa de un mayor uso de la CPU/GPU. Cada proceso de trabajo utilizará 5 GB de VRAM como máximo y 3,5 GB como promedio.
--max es el número máximo de PDF a convertir. Si se omite este elemento, se convertirán todos los PDF de la carpeta.
--min_length es el valor mínimo para el número de caracteres que deben extraerse en un PDF; sólo se tendrán en cuenta para el procesamiento los PDF que superen este valor. Si procesa muchos PDF, se recomienda establecer este valor para evitar el OCR de PDF que son principalmente imágenes (lo que ralentiza el procesamiento).
--metadata_file es una ruta de archivo JSON opcional que contiene metadatos sobre el PDF. Si se proporciona, este archivo se utilizará para establecer el idioma de cada PDF. La configuración del idioma es opcional para Surya (por defecto), pero obligatoria para Tesseract. El formato es el siguiente

{
"pdf1.pdf": {"languages": ["English"]},
"pdf2.pdf": {"languages": ["Spanish", "Russian"]},
...
}

Puede utilizar el nombre del idioma o el código. El código exacto depende del motor de OCR. Para obtener una lista completa de los códigos Surya, consulte [aquí están], para Tesseract véase [aquí están]

Configuración de variables de entorno de marcador en FastGPT

Para habilitar el servicio de resolución personalizada, debe configurar las siguientes variables de entorno en FastGPT:

CUSTOM_READ_FILE_URL=http://xxxx.com/v1/parse/file
CUSTOM_READ_FILE_EXTENSION=pdf

CUSTOM_READ_FILE_URL - la dirección de acceso del servicio de resolución personalizado, debe cambiar el host por la dirección del servicio de resolución que ha desplegado, y la ruta de acceso no cambia.
CUSTOM_READ_FILE_EXTENSION - Especifica los sufijos de tipo de archivo que se admiten para el análisis sintáctico; los tipos de archivo múltiples se separan mediante comas.

Verificar el efecto de análisis

Una vez finalizada la configuración, puede comprobar el efecto del análisis sintáctico siguiendo los pasos que se indican a continuación:

Cargar un archivo PDF en la Base de conocimientos y confirmar la carga
Vea el registro del sistema (debe establecer LOG_LEVEL en el nivel info o debug).
Verá que el archivo PDF analizado por Marker contiene enlaces de imagen completos, lo que indica que el análisis se ha realizado correctamente.