MarkPDFDown: convertir PDF a Markdown basándose en un modelo multimodal

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

59.3K 00

Introducción general

MarkPDFDown es una herramienta de código abierto. Utiliza el modelo de gran lenguaje multimodal para convertir archivos PDF al formato Markdown. El desarrollador es el usuario de GitHub jorben. El objetivo de esta herramienta es sencillo: hacer que los documentos PDF sean más fáciles de editar y compartir. Reconoce encabezados, listas, tablas y otras estructuras en un documento y produce un archivo Markdown con un formato ordenado. El proyecto está escrito en Python y es adecuado para usuarios que necesiten procesar archivos PDF y convertirlos a formato de texto. La versión actual necesita depender de la API de OpenAI, los usuarios tienen que preparar su propia clave API. markPDFDown código fuente abierto en GitHub, bienvenido a participar en la mejora.

Lista de funciones

Convierte archivos PDF a formato Markdown, conservando la estructura del documento.
Ayuda para reconocer títulos, párrafos, listas, tablas y otros elementos.
Comprenda el contenido de los PDF mediante macromodelado multimodal para garantizar resultados de conversión precisos.
Proporciona operaciones de línea de comandos, soporte para el procesamiento por lotes de archivos PDF.
De código abierto y gratuito, los usuarios pueden personalizar el código.

Utilizar la ayuda

MarkPDFDown es una herramienta de línea de comandos que requiere que instale y configure el entorno en su ordenador para poder utilizarla. A continuación se detallan los pasos de instalación y funcionamiento, adecuado para los principiantes también pueden empezar fácilmente.

Proceso de instalación

Preparar el entorno
Necesitarás un ordenador con Python 3.9. Si no es así, descargue e instale Python primero.
Abra un terminal e introduzca el siguiente comando para crear un entorno virtual:

conda create -n markpdfdown python=3.9

A continuación, activa el entorno:

conda activate markpdfdown

Descargar código
Clona el repositorio GitHub de MarkPDFDown escribiendo el comando en el terminal:

git clone https://github.com/jorben/markpdfdown.git

Vaya a la carpeta del proyecto:

cd markpdfdown

Instalación de dependencias
El proyecto requiere el soporte de algunas librerías Python. Ejecute el siguiente comando para instalarlas:

pip install -r requirements.txt

Configuración de claves API
MarkPDFDown utiliza el modelo multimodal de OpenAI y requiere una clave API. Vaya primero al sitio web de OpenAI para registrar una cuenta y obtener la clave.
Coloque la llave en el terminal:

export OPENAI_API_KEY=<你的API密钥>

Si desea cambiar el modelo o la dirección API, puede volver a configurarlo:

export OPENAI_DEFAULT_MODEL=<你的模型名>
export OPENAI_API_BASE=<你的API地址>

Verificar la instalación
importación python main.py --helpSi aparece un mensaje de ayuda, la instalación se ha realizado correctamente.

Cómo utilizarlo

Tras la instalación, el funcionamiento de MarkPDFDown es muy sencillo, principalmente se realiza a través de la línea de comandos. A continuación se indican los pasos específicos.

Convierte archivos PDF completos

Suponga que tiene un archivo PDF como tests/input.pdfSi desea convertirlo en un archivo Markdown output.md. Escribe en el terminal:

python main.py < tests/input.pdf > output.md

Después de ejecutar eloutput.md Aparecerá en la carpeta actual con el contenido Markdown convertido.

Convertir páginas específicas de un PDF

Si desea convertir sólo determinadas páginas, como las páginas 2 a 5, introduzca:

python main.py 2 5 < tests/input.pdf > output.md

El primer número es la página inicial y el segundo es la página final. Los números de página se cuentan a partir de 1.

Funcionamiento con Docker

¿No quieres instalar un entorno Python? Asegúrate de tener Docker en tu ordenador y ejecútalo:

docker run -i -e OPENAI_API_KEY=<你的API密钥> jorben/markpdfdown < tests/input.pdf > output.md

Esto convierte el archivo directamente a través del contenedor Docker.

Funciones

Funciones principales: PDF a Markdown
Arrastre el archivo PDF a la ventana de la línea de comandos, o introduzca directamente la ruta del archivo, la herramienta analizará automáticamente el contenido. El título se convertirá en #y## etc., las listas se elaboran con - está representado por la tabla, y la tabla se muestra en formato de tabla Markdown.
Por ejemplo, se puede convertir un PDF con el título "Introducción" y el cuerpo "Este es el contenido":

# 简介
这是内容

archivo por lotes
Si hay muchos archivos PDF, puede escribir un script para llamar al comando en un bucle. Por ejemplo, en Linux:

for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done

Depuración y mejora
¿Los resultados de la conversión no son satisfactorios? Haz una pregunta en GitHub o modifica el código tú mismo. El proyecto está escrito en Python, y la lógica está toda en el directorio main.py Milla.

advertencia

La ruta del archivo no debe tener caracteres chinos, de lo contrario puede informar de un error.
La clave API debe mantenerse en secreto y no revelarse a terceros.
Los archivos grandes pueden tardar más tiempo en procesarse, lo que garantiza una red estable.

escenario de aplicación

investigación académica
Los estudiantes o investigadores a menudo necesitan convertir el PDF de su tesis a Markdown para tomar notas o compartirlas con facilidad.MarkPDFDown conserva la estructura de la tesis, como los encabezados y las tablas, para editarla directamente en Markdown.
Documentación
Las empresas tienen un montón de instrucciones o informes en PDF que quieren convertir en archivos Markdown. Pueden utilizar esta herramienta para convertirlos por lotes y luego subirlos a GitHub o Notion.
Redacción técnica
Cuando escribes blogs técnicos, necesitas citar material en PDF. Conviértalo directamente y péguelo en su editor Markdown, ahorrándose la molestia de tener que ordenarlo manualmente.

CONTROL DE CALIDAD

¿Necesito trabajar en red?
Sí. La herramienta se basa en la API de OpenAI y debe estar conectada en red para funcionar.
¿Es compatible con PDF en chino?
Compatibilidad. Siempre que el PDF esté en formato de texto (no sea una imagen escaneada), el contenido chino se puede convertir correctamente.
¿Qué ocurre si hay un error de conversión?
Comprueba si la clave API es correcta o si el archivo PDF está dañado. Si eso no funciona, ve a GitHub y plantea una incidencia.
¿Puedo utilizarlo sin conexión?
Por ahora no. Puede que en el futuro se admitan modelos locales, pero por ahora tendrá que ser el servicio de OpenAI.