Marker: быстрое преобразование PDF в Markdown с открытым исходным кодом
Общее введение
Marker - это инструмент обработки документов на основе глубокого обучения, предназначенный для быстрого и точного преобразования PDF-файлов в формат Markdown. Он поддерживает широкий спектр типов документов и особенно оптимизирован для преобразования книг и научных работ. Marker способен удалять избыточное содержимое, такое как верхние и нижние колонтитулы, форматировать таблицы и блоки кода, а также извлекать и сохранять изображения. Он также преобразует большинство формул в формат LaTeX и поддерживает работу на GPU, CPU или MPS.

Список функций
- Преобразование PDF-файлов в формат Markdown
- Поддержка различных типов документов, включая книги и научные работы
- Удалите лишнее содержимое, например, верхние и нижние колонтитулы
- Форматирование таблиц и блоков кода
- Извлечение и сохранение изображений
- Преобразование большинства уравнений в формат LaTeX
- Поддерживает работу с GPU, CPU и MPS
Использование помощи
Процесс установки
- Установка зависимостей: Убедитесь, что установлен Python 3.6 и выше, а также что установлены следующие зависимости:
pip install marker-pdf
- пример работы::
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
Руководство по использованию
Преобразование отдельных файлов
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
--batch_multiplier
кратно стандартному размеру партии, если у вас есть дополнительная VRAM. Более высокие числа будут использовать больше VRAM, но будут быстрее обрабатываться. По умолчанию установлено значение 2. Размер партии по умолчанию требует около 3 ГБ VRAM.--max_pages
максимальное количество обрабатываемых страниц. Если опустить этот пункт, то будет преобразован весь документ.--langs
необязательный список языков документов, разделенных запятыми, который будет использоваться для OCR. необязателен по умолчанию и должен быть указан, если используется tesseract.--ocr_all_pages
необязательный параметр для принудительного OCR всех страниц PDF, если этот параметр или переменная окружения `OCR_ALL_PAGES` равны true, OCR будет принудительным.
Список поддерживаемых языков Surya OCR можно найти в [здесь] найдено. Если вам нужно больше языков, вы можете использовать любой из поддерживаемых языков, просто установите параметр OCR_ENGINE
установленный на ocrmypdf
Если OCR не требуется, маркеры могут поддерживать любой язык. Если OCR не требуется, маркеры могут поддерживать любой язык.
Преобразование нескольких файлов
marker /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000
--workers
количество одновременно конвертируемых PDF-файлов. По умолчанию установлено значение 1, но вы можете увеличить это значение, чтобы повысить пропускную способность за счет увеличения нагрузки на CPU/GPU. Каждый рабочий процесс будет использовать 5 ГБ VRAM в пике и 3,5 ГБ в среднем.--max
максимальное количество PDF-файлов для конвертирования. Если опустить этот параметр, будут преобразованы все PDF-файлы в папке.--min_length
минимальное значение для количества символов, которые необходимо извлечь из PDF-файла; только PDF-файлы, превышающие это значение, будут рассматриваться для обработки. Если вы обрабатываете большое количество PDF-файлов, рекомендуется установить это значение, чтобы избежать OCR PDF-файлов, состоящих в основном из изображений (что замедляет обработку).--metadata_file
необязательный путь к файлу JSON, содержащему метаданные о PDF. Если он указан, этот файл будет использоваться для установки языка для каждого PDF. Установка языка необязательна для Surya (по умолчанию), но обязательна для Tesseract. Формат следующий:
{ "pdf1.pdf": {"languages": ["English"]}, "pdf2.pdf": {"languages": ["Spanish", "Russian"]}, ... }
Вы можете использовать либо название языка, либо код. Точный код зависит от механизма OCR. Полный список кодов Surya см. в разделе [здесь], для Тессеракта смотрите [здесь]
Настройка переменных окружения маркера в FastGPT
Чтобы включить службу пользовательского разрешения, необходимо настроить следующие переменные окружения в FastGPT:
CUSTOM_READ_FILE_URL=http://xxxx.com/v1/parse/file
CUSTOM_READ_FILE_EXTENSION=pdf
- CUSTOM_READ_FILE_URL - адрес доступа к пользовательскому сервису разрешения, необходимо изменить хост на адрес развернутого сервиса разрешения, а путь к нему остается неизменным
- CUSTOM_READ_FILE_EXTENSION - Указывает суффиксы типов файлов, которые поддерживаются для разбора, несколько типов файлов разделяются запятыми
Проверьте эффект синтаксического анализа
После завершения настройки вы можете проверить эффект парсинга, выполнив следующие действия:
- Загрузите PDF-файл в Базу знаний и подтвердите загрузку
- Просмотрите системный журнал (необходимо установить LOG_LEVEL на уровень info или debug).
- Вы увидите, что PDF-файл, разобранный Marker, содержит полные ссылки на изображения, что свидетельствует об успешном разборе.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...