Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión

Introducción general

Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto es desarrollado por el equipo getomni-ai , proporciona una solución simple y eficiente de OCR (Reconocimiento Óptico de Caracteres). zerox soporta Node y Python dos lenguajes de programación , el uso de graphicsmagick y ghostscript para el procesamiento de PDF a imagen . Los usuarios pueden convertir rápidamente documentos a formato Markdown proporcionando la ruta del archivo y la clave API OpenAI para una variedad de documentos con diseños complejos, como tablas y gráficos.

Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

 

Lista de funciones

  • Admite la conversión de PDF, DOCX, imágenes y otros formatos de archivo
  • Es compatible con los lenguajes de programación Node y Python.
  • Procesamiento OCR eficaz mediante modelos visuales
  • Instala automáticamente graphicsmagick y ghostscript para el procesamiento de PDF a imágenes.
  • Admite tanto rutas de archivo como URL
  • Proporcionar una variedad de parámetros opcionales, como el procesamiento de concurrencia, la corrección de la orientación de la página, el modo de tratamiento de errores, etc.
  • Compatibilidad con funciones de devolución de llamada de preprocesamiento y postprocesamiento
  • Opción de guardar los resultados de la conversión en un directorio especificado

 

Utilizar la ayuda

Proceso de instalación

Versión del nodo

  1. Instalación de Node.js y npm
  2. Ejecutar comando npm install zerox
  3. Asegúrese de que graphicsmagick y ghostscript están instalados en su sistema, si no es así, ejecute el siguiente comando:
   sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript

Versión Python

  1. Instalar Python y pip
  2. Ejecutar comando pip install zerox
  3. Asegúrese de que graphicsmagick y ghostscript están instalados en su sistema, si no es así, ejecute el siguiente comando:
   sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript

Utilización

Versión del nodo

  1. Importa el módulo zerox:
   import { zerox } from "zerox";
  1. Utilice la ruta del archivo para la conversión:
   const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
  1. Utilice la URL para la conversión:
   const result = await zerox({
filePath: "https://example.com/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});

Versión Python

  1. Importa el módulo zerox:
   from zerox import zerox
  1. Utilice la ruta del archivo para la conversión:
   result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key"
)
  1. Utilice la URL para la conversión:
   result = zerox(
file_path="https://example.com/file.pdf",
openai_api_key="your_openai_api_key"
)

Funciones principales

  1. conversión de archivos: Proporciona la ruta del archivo o URL, llama a la función zerox para convertir, devuelve texto en formato Markdown.
  2. procesamiento simultáneo: Fijando elconcurrencypara controlar el número de páginas procesadas al mismo tiempo y mejorar así la eficacia del procesamiento.
  3. Corrección de la orientación de la páginaCorrección de la orientación de la página: La función de corrección de la orientación de la página está activada por defecto para garantizar la orientación correcta del texto convertido.
  4. modo de tratamiento de erroresOpcionalmente, los errores pueden ser ignorados o lanzados, estableciendo el parámetroerrorModeparámetros están configurados.
  5. Devoluciones de llamada antes y después del procesamientoProporciona funciones de llamada de retorno para realizar acciones personalizadas antes y después de procesar cada página.
  6. Guardar resultados: Fijando eloutputDirpara guardar el resultado de la conversión en el directorio especificado.

código de ejemplo (informática)

Versión del nodo

import { zerox } from "zerox";
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
cleanup: true,
concurrency: 10,
correctOrientation: true,
errorMode: "IGNORE",
maintainFormat: false,
maxRetries: 1,
maxTesseractWorkers: -1,
model: "gpt-4o-mini",
onPostProcess: async ({ page, progressSummary }) => Promise<void>,
onPreProcess: async ({ imagePath, pageNumber }) => Promise<void>,
outputDir: "output",
pagesToConvertAsImages: -1,
});

Versión Python

from zerox import zerox
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key",
cleanup=True,
concurrency=10,
correct_orientation=True,
error_mode="IGNORE",
maintain_format=False,
max_retries=1,
max_tesseract_workers=-1,
model="gpt-4o-mini",
on_post_process=lambda page, progress_summary: None,
on_pre_process=lambda image_path, page_number: None,
output_dir="output",
pages_to_convert_as_images=-1,
)

 

Utilizamos libreoffice responder cantando graphicsmagick La conversión de documento a imagen se realiza mediante una combinación de lo siguiente. Para los archivos que no son de imagen ni PDF, utilizamos libreoffice para convertir el archivo a PDF y luego a imagen.

[
"pdf", // Portable Document Format
"doc", // Microsoft Word 97-2003
"docx", // Microsoft Word 2007-2019
"odt", // OpenDocument Text
"ott", // OpenDocument Text Template
"rtf", // Rich Text Format
"txt", // Plain Text
"html", // HTML Document
"htm", // HTML Document (alternative extension)
"xml", // XML Document
"wps", // Microsoft Works Word Processor
"wpd", // WordPerfect Document
"xls", // Microsoft Excel 97-2003
"xlsx", // Microsoft Excel 2007-2019
"ods", // OpenDocument Spreadsheet
"ots", // OpenDocument Spreadsheet Template
"csv", // Comma-Separated Values
"tsv", // Tab-Separated Values
"ppt", // Microsoft PowerPoint 97-2003
"pptx", // Microsoft PowerPoint 2007-2019
"odp", // OpenDocument Presentation
"otp", // OpenDocument Presentation Template
];
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...