Zerox: PDF, DOCX, преобразование изображений в Markdown, высокоточное распознавание визуальных моделей
Общее введение
Zerox - это проект с открытым исходным кодом, предназначенный для преобразования PDF, DOCX, изображений и других документов в формат Markdown с помощью визуальных моделей. Проект разработан командой getomni-ai, предоставляет простое и эффективное решение OCR (Optical Character Recognition). zerox поддерживает Node и Python два языка программирования, использование graphicsmagick и ghostscript для обработки PDF в изображения. Пользователи могут быстро конвертировать документы в формат Markdown, указав путь к файлу и ключ OpenAI API для различных документов со сложной структурой, таких как таблицы и диаграммы.

Список функций
- Поддержка преобразования PDF, DOCX, изображений и других форматов файлов
- Обеспечивает поддержку языков программирования Node и Python
- Эффективная обработка OCR с использованием визуальных моделей
- Автоматически устанавливает graphicsmagick и ghostscript для обработки PDF-изображений.
- Поддерживает ввод путей к файлам и URL-адресов
- Предоставляет множество дополнительных параметров, таких как обработка параллелизма, коррекция ориентации страницы, режим обработки ошибок и т.д.
- Поддержка функций обратного вызова для предварительной и последующей обработки
- Опция сохранения результатов преобразования в указанную директорию
Использование помощи
Процесс установки
Версия узла
- Установка Node.js и npm
- Выполнить команду
npm install zerox
- Убедитесь, что в вашей системе установлены graphicsmagick и ghostscript, если нет, выполните следующую команду:
sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript
Версия Python
- Установите Python и pip
- Выполнить команду
pip install zerox
- Убедитесь, что в вашей системе установлены graphicsmagick и ghostscript, если нет, выполните следующую команду:
sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript
Использование
Версия узла
- Импортируйте модуль zerox:
import { zerox } from "zerox";
- Используйте путь к файлу для преобразования:
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
- Используйте URL-адрес для преобразования:
const result = await zerox({
filePath: "https://example.com/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
Версия Python
- Импортируйте модуль zerox:
from zerox import zerox
- Используйте путь к файлу для преобразования:
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key"
)
- Используйте URL-адрес для преобразования:
result = zerox(
file_path="https://example.com/file.pdf",
openai_api_key="your_openai_api_key"
)
Основные функции
- преобразование файлов: Укажите путь к файлу или URL, вызовите функцию zerox для преобразования, верните текст в формате Markdown.
- одновременная обработка: При установке
concurrency
параметр, позволяющий контролировать количество одновременно обрабатываемых страниц для повышения эффективности обработки. - Коррекция ориентации страницы: Функция коррекции ориентации страницы включена по умолчанию, чтобы обеспечить правильную ориентацию преобразованного текста.
- режим обработки ошибок: По желанию, ошибки можно игнорировать или отбрасывать, установив значение
errorMode
параметры настроены. - Обратные вызовы предварительной и последующей обработки: Предоставляет функции обратного вызова для выполнения пользовательских действий до и после обработки каждой страницы.
- Сохранить результаты: При установке
outputDir
параметр для сохранения результата преобразования в указанный каталог.
пример кода (вычисления)
Версия узла
import { zerox } from "zerox";
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
cleanup: true,
concurrency: 10,
correctOrientation: true,
errorMode: "IGNORE",
maintainFormat: false,
maxRetries: 1,
maxTesseractWorkers: -1,
model: "gpt-4o-mini",
onPostProcess: async ({ page, progressSummary }) => Promise<void>,
onPreProcess: async ({ imagePath, pageNumber }) => Promise<void>,
outputDir: "output",
pagesToConvertAsImages: -1,
});
Версия Python
from zerox import zerox
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key",
cleanup=True,
concurrency=10,
correct_orientation=True,
error_mode="IGNORE",
maintain_format=False,
max_retries=1,
max_tesseract_workers=-1,
model="gpt-4o-mini",
on_post_process=lambda page, progress_summary: None,
on_pre_process=lambda image_path, page_number: None,
output_dir="output",
pages_to_convert_as_images=-1,
)
Мы используем libreoffice
ответить пением graphicsmagick
Для преобразования документов в изображения используется комбинация следующих программ. Для файлов, не содержащих изображений и не являющихся PDF, мы используем libreoffice для преобразования файла в PDF, а затем в изображение.
[ "pdf", // Portable Document Format "doc", // Microsoft Word 97-2003 "docx", // Microsoft Word 2007-2019 "odt", // OpenDocument Text "ott", // OpenDocument Text Template "rtf", // Rich Text Format "txt", // Plain Text "html", // HTML Document "htm", // HTML Document (alternative extension) "xml", // XML Document "wps", // Microsoft Works Word Processor "wpd", // WordPerfect Document "xls", // Microsoft Excel 97-2003 "xlsx", // Microsoft Excel 2007-2019 "ods", // OpenDocument Spreadsheet "ots", // OpenDocument Spreadsheet Template "csv", // Comma-Separated Values "tsv", // Tab-Separated Values "ppt", // Microsoft PowerPoint 97-2003 "pptx", // Microsoft PowerPoint 2007-2019 "odp", // OpenDocument Presentation "otp", // OpenDocument Presentation Template ];
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...