Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 1.8K 00
Introducción general
Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto es desarrollado por el equipo getomni-ai , proporciona una solución simple y eficiente de OCR (Reconocimiento Óptico de Caracteres). zerox soporta Node y Python dos lenguajes de programación , el uso de graphicsmagick y ghostscript para el procesamiento de PDF a imagen . Los usuarios pueden convertir rápidamente documentos a formato Markdown proporcionando la ruta del archivo y la clave API OpenAI para una variedad de documentos con diseños complejos, como tablas y gráficos.

Lista de funciones
- Admite la conversión de PDF, DOCX, imágenes y otros formatos de archivo
- Es compatible con los lenguajes de programación Node y Python.
- Procesamiento OCR eficaz mediante modelos visuales
- Instala automáticamente graphicsmagick y ghostscript para el procesamiento de PDF a imágenes.
- Admite tanto rutas de archivo como URL
- Proporcionar una variedad de parámetros opcionales, como el procesamiento de concurrencia, la corrección de la orientación de la página, el modo de tratamiento de errores, etc.
- Compatibilidad con funciones de devolución de llamada de preprocesamiento y postprocesamiento
- Opción de guardar los resultados de la conversión en un directorio especificado
Utilizar la ayuda
Proceso de instalación
Versión del nodo
- Instalación de Node.js y npm
- Ejecutar comando
npm install zerox
- Asegúrese de que graphicsmagick y ghostscript están instalados en su sistema, si no es así, ejecute el siguiente comando:
sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript
Versión Python
- Instalar Python y pip
- Ejecutar comando
pip install zerox
- Asegúrese de que graphicsmagick y ghostscript están instalados en su sistema, si no es así, ejecute el siguiente comando:
sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript
Utilización
Versión del nodo
- Importa el módulo zerox:
import { zerox } from "zerox";
- Utilice la ruta del archivo para la conversión:
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
- Utilice la URL para la conversión:
const result = await zerox({
filePath: "https://example.com/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
Versión Python
- Importa el módulo zerox:
from zerox import zerox
- Utilice la ruta del archivo para la conversión:
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key"
)
- Utilice la URL para la conversión:
result = zerox(
file_path="https://example.com/file.pdf",
openai_api_key="your_openai_api_key"
)
Funciones principales
- conversión de archivos: Proporciona la ruta del archivo o URL, llama a la función zerox para convertir, devuelve texto en formato Markdown.
- procesamiento simultáneo: Fijando el
concurrency
para controlar el número de páginas procesadas al mismo tiempo y mejorar así la eficacia del procesamiento. - Corrección de la orientación de la páginaCorrección de la orientación de la página: La función de corrección de la orientación de la página está activada por defecto para garantizar la orientación correcta del texto convertido.
- modo de tratamiento de erroresOpcionalmente, los errores pueden ser ignorados o lanzados, estableciendo el parámetro
errorMode
parámetros están configurados. - Devoluciones de llamada antes y después del procesamientoProporciona funciones de llamada de retorno para realizar acciones personalizadas antes y después de procesar cada página.
- Guardar resultados: Fijando el
outputDir
para guardar el resultado de la conversión en el directorio especificado.
código de ejemplo (informática)
Versión del nodo
import { zerox } from "zerox";
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
cleanup: true,
concurrency: 10,
correctOrientation: true,
errorMode: "IGNORE",
maintainFormat: false,
maxRetries: 1,
maxTesseractWorkers: -1,
model: "gpt-4o-mini",
onPostProcess: async ({ page, progressSummary }) => Promise<void>,
onPreProcess: async ({ imagePath, pageNumber }) => Promise<void>,
outputDir: "output",
pagesToConvertAsImages: -1,
});
Versión Python
from zerox import zerox
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key",
cleanup=True,
concurrency=10,
correct_orientation=True,
error_mode="IGNORE",
maintain_format=False,
max_retries=1,
max_tesseract_workers=-1,
model="gpt-4o-mini",
on_post_process=lambda page, progress_summary: None,
on_pre_process=lambda image_path, page_number: None,
output_dir="output",
pages_to_convert_as_images=-1,
)
Utilizamos libreoffice
responder cantando graphicsmagick
La conversión de documento a imagen se realiza mediante una combinación de lo siguiente. Para los archivos que no son de imagen ni PDF, utilizamos libreoffice para convertir el archivo a PDF y luego a imagen.
[ "pdf", // Portable Document Format "doc", // Microsoft Word 97-2003 "docx", // Microsoft Word 2007-2019 "odt", // OpenDocument Text "ott", // OpenDocument Text Template "rtf", // Rich Text Format "txt", // Plain Text "html", // HTML Document "htm", // HTML Document (alternative extension) "xml", // XML Document "wps", // Microsoft Works Word Processor "wpd", // WordPerfect Document "xls", // Microsoft Excel 97-2003 "xlsx", // Microsoft Excel 2007-2019 "ods", // OpenDocument Spreadsheet "ots", // OpenDocument Spreadsheet Template "csv", // Comma-Separated Values "tsv", // Tab-Separated Values "ppt", // Microsoft PowerPoint 97-2003 "pptx", // Microsoft PowerPoint 2007-2019 "odp", // OpenDocument Presentation "otp", // OpenDocument Presentation Template ];
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...