Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown
Últimos recursos sobre IAActualizado hace 5 meses Círculo de intercambio de inteligencia artificial 4.1K 00
Introducción general
Marker es una herramienta de procesamiento de documentos basada en el aprendizaje profundo y diseñada para convertir archivos PDF al formato Markdown con rapidez y precisión. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizada para convertir libros y artículos científicos.Marker es capaz de eliminar contenido redundante como encabezados y pies de página, formatear tablas y bloques de código, y extraer y guardar imágenes. También convierte la mayoría de las fórmulas al formato LaTeX y admite la ejecución en GPU, CPU o MPS.

Lista de funciones
- Convierte archivos PDF a formato Markdown
- Compatibilidad con varios tipos de documentos, incluidos libros y artículos científicos
- Elimine el exceso de contenido, como encabezados y pies de página.
- Formato de tablas y bloques de código
- Extraer y guardar imágenes
- Convierta la mayoría de las ecuaciones al formato LaTeX
- Compatible con GPU, CPU y MPS
Utilizar la ayuda
Proceso de instalación
- Instalación de dependenciasAsegúrese de que Python 3.6 y superior está instalado, y que las siguientes dependencias están instaladas:
pip install marker-pdf
- ejemplo de funcionamiento::
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
Normas de uso
Conversión de archivos individuales
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
--batch_multiplier
es un múltiplo del tamaño de lote por defecto si tienes VRAM extra. Los números más altos utilizarán más VRAM, pero son más rápidos de procesar. El valor por defecto es 2. El tamaño de lote por defecto requiere aproximadamente 3GB de VRAM.--max_pages
es el número máximo de páginas a procesar. Si se omite este elemento, se convertirá todo el documento.--langs
es una lista opcional separada por comas de los idiomas del documento que se utilizarán para el OCR. es opcional por defecto y debe proporcionarse si se utiliza tesseract.--ocr_all_pages
es un parámetro opcional para forzar el OCR de todas las páginas del PDF, si este parámetro o la variable de entorno `OCR_ALL_PAGES` es verdadero, se forzará el OCR.
Encontrará una lista de los idiomas Surya OCR compatibles en [aquí estánencontrado. Si necesita más idiomas, puede utilizar cualquiera de los idiomas admitidos, sólo tiene que establecer el parámetro OCR_ENGINE
ajustado a ocrmypdf
Si no se requiere OCR, los marcadores pueden admitir cualquier idioma. Si no se requiere OCR, el marcador puede admitir cualquier idioma.
Convertir varios archivos
marker /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000
--workers
es el número de PDF convertidos simultáneamente. El valor predeterminado es 1, pero puede incrementarlo para aumentar el rendimiento a costa de un mayor uso de la CPU/GPU. Cada proceso de trabajo utilizará 5 GB de VRAM como máximo y 3,5 GB como promedio.--max
es el número máximo de PDF a convertir. Si se omite este elemento, se convertirán todos los PDF de la carpeta.--min_length
es el valor mínimo para el número de caracteres que deben extraerse en un PDF; sólo se tendrán en cuenta para el procesamiento los PDF que superen este valor. Si procesa muchos PDF, se recomienda establecer este valor para evitar el OCR de PDF que son principalmente imágenes (lo que ralentiza el procesamiento).--metadata_file
es una ruta de archivo JSON opcional que contiene metadatos sobre el PDF. Si se proporciona, este archivo se utilizará para establecer el idioma de cada PDF. La configuración del idioma es opcional para Surya (por defecto), pero obligatoria para Tesseract. El formato es el siguiente
{ "pdf1.pdf": {"languages": ["English"]}, "pdf2.pdf": {"languages": ["Spanish", "Russian"]}, ... }
Puede utilizar el nombre del idioma o el código. El código exacto depende del motor de OCR. Para obtener una lista completa de los códigos Surya, consulte [aquí están], para Tesseract véase [aquí están]
Configuración de variables de entorno de marcador en FastGPT
Para habilitar el servicio de resolución personalizada, debe configurar las siguientes variables de entorno en FastGPT:
CUSTOM_READ_FILE_URL=http://xxxx.com/v1/parse/file
CUSTOM_READ_FILE_EXTENSION=pdf
- CUSTOM_READ_FILE_URL - la dirección de acceso del servicio de resolución personalizado, debe cambiar el host por la dirección del servicio de resolución que ha desplegado, y la ruta de acceso no cambia.
- CUSTOM_READ_FILE_EXTENSION - Especifica los sufijos de tipo de archivo que se admiten para el análisis sintáctico; los tipos de archivo múltiples se separan mediante comas.
Verificar el efecto de análisis
Una vez finalizada la configuración, puede comprobar el efecto del análisis sintáctico siguiendo los pasos que se indican a continuación:
- Cargar un archivo PDF en la Base de conocimientos y confirmar la carga
- Vea el registro del sistema (debe establecer LOG_LEVEL en el nivel info o debug).
- Verá que el archivo PDF analizado por Marker contiene enlaces de imagen completos, lo que indica que el análisis se ha realizado correctamente.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...