Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 48.4K 00
Introducción general
Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto es desarrollado por el equipo getomni-ai , proporciona una solución simple y eficiente de OCR (Reconocimiento Óptico de Caracteres). zerox soporta Node y Python dos lenguajes de programación , el uso de graphicsmagick y ghostscript para el procesamiento de PDF a imagen . Los usuarios pueden convertir rápidamente documentos a formato Markdown proporcionando la ruta del archivo y la clave API OpenAI para una variedad de documentos con diseños complejos, como tablas y gráficos.

Lista de funciones
- Admite la conversión de PDF, DOCX, imágenes y otros formatos de archivo
- Es compatible con los lenguajes de programación Node y Python.
- Procesamiento OCR eficaz mediante modelos visuales
- Instala automáticamente graphicsmagick y ghostscript para el procesamiento de PDF a imágenes.
- Admite tanto rutas de archivo como URL
- Proporcionar una variedad de parámetros opcionales, como el procesamiento de concurrencia, la corrección de la orientación de la página, el modo de tratamiento de errores, etc.
- Compatibilidad con funciones de devolución de llamada de preprocesamiento y postprocesamiento
- Opción de guardar los resultados de la conversión en un directorio especificado
Utilizar la ayuda
Proceso de instalación
Versión del nodo
- Instalación de Node.js y npm
- Ejecutar comando
npm install zerox - Asegúrese de que graphicsmagick y ghostscript están instalados en su sistema, si no es así, ejecute el siguiente comando:
sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript
Versión Python
- Instalar Python y pip
- Ejecutar comando
pip install zerox - Asegúrese de que graphicsmagick y ghostscript están instalados en su sistema, si no es así, ejecute el siguiente comando:
sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript
Utilización
Versión del nodo
- Importa el módulo zerox:
import { zerox } from "zerox";
- Utilice la ruta del archivo para la conversión:
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
- Utilice la URL para la conversión:
const result = await zerox({
filePath: "https://example.com/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
Versión Python
- Importa el módulo zerox:
from zerox import zerox
- Utilice la ruta del archivo para la conversión:
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key"
)
- Utilice la URL para la conversión:
result = zerox(
file_path="https://example.com/file.pdf",
openai_api_key="your_openai_api_key"
)
Funciones principales
- conversión de archivos: Proporciona la ruta del archivo o URL, llama a la función zerox para convertir, devuelve texto en formato Markdown.
- procesamiento simultáneo: Fijando el
concurrencypara controlar el número de páginas procesadas al mismo tiempo y mejorar así la eficacia del procesamiento. - Corrección de la orientación de la páginaCorrección de la orientación de la página: La función de corrección de la orientación de la página está activada por defecto para garantizar la orientación correcta del texto convertido.
- modo de tratamiento de erroresOpcionalmente, los errores pueden ser ignorados o lanzados, estableciendo el parámetro
errorModeparámetros están configurados. - Devoluciones de llamada antes y después del procesamientoProporciona funciones de llamada de retorno para realizar acciones personalizadas antes y después de procesar cada página.
- Guardar resultados: Fijando el
outputDirpara guardar el resultado de la conversión en el directorio especificado.
código de ejemplo (informática)
Versión del nodo
import { zerox } from "zerox";
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
cleanup: true,
concurrency: 10,
correctOrientation: true,
errorMode: "IGNORE",
maintainFormat: false,
maxRetries: 1,
maxTesseractWorkers: -1,
model: "gpt-4o-mini",
onPostProcess: async ({ page, progressSummary }) => Promise<void>,
onPreProcess: async ({ imagePath, pageNumber }) => Promise<void>,
outputDir: "output",
pagesToConvertAsImages: -1,
});
Versión Python
from zerox import zerox
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key",
cleanup=True,
concurrency=10,
correct_orientation=True,
error_mode="IGNORE",
maintain_format=False,
max_retries=1,
max_tesseract_workers=-1,
model="gpt-4o-mini",
on_post_process=lambda page, progress_summary: None,
on_pre_process=lambda image_path, page_number: None,
output_dir="output",
pages_to_convert_as_images=-1,
)
Utilizamos libreoffice responder cantando graphicsmagick La conversión de documento a imagen se realiza mediante una combinación de lo siguiente. Para los archivos que no son de imagen ni PDF, utilizamos libreoffice para convertir el archivo a PDF y luego a imagen.
[ "pdf", // Portable Document Format "doc", // Microsoft Word 97-2003 "docx", // Microsoft Word 2007-2019 "odt", // OpenDocument Text "ott", // OpenDocument Text Template "rtf", // Rich Text Format "txt", // Plain Text "html", // HTML Document "htm", // HTML Document (alternative extension) "xml", // XML Document "wps", // Microsoft Works Word Processor "wpd", // WordPerfect Document "xls", // Microsoft Excel 97-2003 "xlsx", // Microsoft Excel 2007-2019 "ods", // OpenDocument Spreadsheet "ots", // OpenDocument Spreadsheet Template "csv", // Comma-Separated Values "tsv", // Tab-Separated Values "ppt", // Microsoft PowerPoint 97-2003 "pptx", // Microsoft PowerPoint 2007-2019 "odp", // OpenDocument Presentation "otp", // OpenDocument Presentation Template ];
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




