PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown
Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 58.3K 00
Introducción general
PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Está desarrollada por oomol-lab y alojada en GitHub para los usuarios a los que les gusta organizar sus libros electrónicos. La herramienta se ejecuta a través de un modelo de IA local y no requiere conexión a Internet, lo que protege la privacidad y facilita el funcionamiento. Extrae el cuerpo del texto de los documentos escaneados, elimina elementos varios, como encabezados y pies de página, y produce un archivo Markdown limpio, especialmente adecuado para organizar libros antiguos o material de investigación.

Lista de funciones
- Convierte PDF de libros escaneados a formato Markdown con soporte de procesamiento nativo.
- Extraiga el contenido del cuerpo y filtre automáticamente encabezados, pies de página y números de página.
- Maneje el texto a través de las páginas y mantenga la coherencia de las frases.
- Admite ilustraciones y capturas de pantalla de tablas, incrustadas en archivos Markdown.
- Utilizar la IA para analizar la disposición de las páginas y organizar el texto en orden de lectura.
- Ampliable a formato EPUB para generar archivos de libros electrónicos.
Utilizar la ayuda
PDF Craft se centra en la digitalización de libros de PDF a Markdown.Aquí están los pasos detallados de instalación y uso para ayudarle a empezar rápidamente.
Proceso de instalación
- Preparar el entorno
Necesitarás un ordenador con Python 3.8 o superior instalado. Asegúrate de que hay espacio suficiente en tu disco duro para almacenar tus modelos de IA. - Descargar código
Abra un terminal e introduzca el comando Clonar proyecto:
git clone https://github.com/oomol-lab/pdf-craft.git
A continuación, vaya al catálogo:
cd pdf-craft
- Instalación de dependencias
Introduzca el siguiente comando para instalar las bibliotecas necesarias:
pip install -r requirements.txt
Si tienes una GPU, puedes añadir soporte CUDA:
pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
- Obtener el modelo
En la primera ejecución, la herramienta descargará automáticamente el modelo de IA (por ejemplo, DocLayout-YOLO). Manteniendo la red abierta, el modelo se guardará en<model_dir_path>(puede establecerse en el código).
flujo de trabajo
Convertir a Markdown
- Preparar PDF
Coloque los PDF de los libros escaneados en una carpeta como/path/to/pdf/book.pdf. - conversión en tiempo de ejecución
Introduzca el siguiente código en el terminal:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
device="cpu"Funciona en la CPU. Soporte GPU leedevice="cuda:0".markdown_pathRuta del archivo Markdown de salida.image_dir: Catálogo de ilustraciones guardadas.
- Ver resultados
Cuando hayas terminado, abre el/path/to/output.mdComprueba el contenido. Las ilustraciones se guardan automáticamente en elimagesCarpeta.
Función destacada Operación
- extracción de texto
La herramienta reconoce las páginas escaneadas, elimina los encabezados y pies de página y conserva sólo el cuerpo del texto. No es necesario limpiar el desorden manualmente. - tratamiento cruzado de páginas
Si una frase queda truncada por un salto de página, PDF Craft la conecta automáticamente para garantizar que el texto fluya sin problemas. - Incrustación de ilustraciones
Las imágenes o tablas de los libros escaneados se capturarán en pantalla y se incrustarán en Markdown. puede encontrarlas en la secciónimagespara encontrarlos.
consejo
- La calidad del escaneado del PDF debe ser clara, de lo contrario el reconocimiento puede ser erróneo.
- La primera ejecución descargará el modelo, después estará disponible sin conexión.
- Si va lento, prueba a acelerar la GPU o a reducir el número de páginas.
escenario de aplicación
- Organizar libros viejos
PDF Craft puede eliminar el desorden y producir archivos limpios. - Conversión de datos de investigación
Los académicos necesitan convertir documentos escaneados a Markdown para tomar notas. La herramienta conserva el texto y las ilustraciones para facilitar su citación. - Producción de libros electrónicos
Si desea convertir PDF escaneados en documentos Markdown editables, PDF Craft le ofrece soluciones sencillas.
CONTROL DE CALIDAD
- ¿Sólo permite escanear archivos PDF?
Principalmente optimizado para PDF de libros escaneados. Los PDF de texto normal funcionarán, pero probablemente no tan bien como los documentos escaneados. - ¿Qué hago con las imágenes después de la conversión?
La imagen se guarda como captura de pantalla en una carpeta especificada y el enlace se incrusta automáticamente en Markdown. - ¿Por qué es lenta la primera carrera?
Porque tienes que descargar el modelo de IA. Después se vuelve más rápido.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...




