MarkPDFDown: преобразование PDF в Markdown на основе мультимодальной модели

Общее введение

MarkPDFDown - это инструмент с открытым исходным кодом. Он использует мультимодальную модель большого языка для преобразования PDF-файлов в формат Markdown. Разработчик - пользователь GitHub jorben. Цель этого инструмента проста: сделать PDF-документы более удобными для редактирования и совместного использования. Он распознает заголовки, списки, таблицы и другие структуры в документе и создает аккуратно отформатированный файл в формате Markdown. Проект написан на Python и подходит для пользователей, которым нужно обрабатывать PDF-файлы и конвертировать их в текстовый формат. Текущая версия полагается на API OpenAI, пользователям необходимо подготовить свой собственный ключ API. markPDFDown с открытым исходным кодом на GitHub, приглашаем принять участие в улучшении.

MarkPDFDown:基于多模态模型将PDF转为Markdown文件

 

Список функций

  • Конвертируйте PDF-файлы в формат Markdown, сохраняя структуру документа.
  • Поддержка распознавания заголовков, абзацев, списков, таблиц и других элементов.
  • Понимание содержимого PDF с помощью мультимодального макромоделирования для обеспечения точных результатов преобразования.
  • Обеспечивает работу с командной строкой, поддерживает пакетную обработку PDF-файлов.
  • Открытое и бесплатное программное обеспечение позволяет пользователям настраивать код.

Использование помощи

MarkPDFDown - это инструмент командной строки, для использования которого необходимо установить и настроить среду на вашем компьютере. Ниже приведены подробные шаги по установке и эксплуатации, с которыми легко справятся и новички.

Процесс установки

  1. Подготовка среды
    Вам понадобится компьютер с версией Python 3.9. Если его нет, сначала загрузите и установите Python.
    Откройте терминал и введите следующую команду, чтобы создать виртуальную среду:
conda create -n markpdfdown python=3.9

Затем активируйте окружение:

conda activate markpdfdown
  1. Код загрузки
    Клонируйте репозиторий MarkPDFDown на GitHub, введя эту команду в терминале:
git clone https://github.com/jorben/markpdfdown.git

Перейдите в папку с проектом:

cd markpdfdown
  1. Установка зависимостей
    Проект требует поддержки некоторых библиотек Python. Для их установки выполните следующую команду:
pip install -r requirements.txt
  1. Настройка ключей API
    MarkPDFDown использует мультимодальную модель OpenAI и требует ключа API. Сначала зайдите на сайт OpenAI, чтобы зарегистрировать аккаунт и получить ключ.
    Установите ключ в терминал:
export OPENAI_API_KEY=<你的API密钥>

Если вы хотите изменить модель или адрес API, вы можете задать их снова:

export OPENAI_DEFAULT_MODEL=<你的模型名>
export OPENAI_API_BASE=<你的API地址>
  1. Проверка установки
    импорт python main.py --helpЕсли появится сообщение о помощи, значит, установка прошла успешно.

Как использовать

После установки работа с MarkPDFDown очень проста и осуществляется в основном через командную строку. Ниже перечислены конкретные шаги.

Преобразование целых файлов PDF

Предположим, у вас есть файл PDF следующего вида tests/input.pdfЕсли вы хотите преобразовать его в файл Markdown output.md. Введите в терминале:

python main.py < tests/input.pdf > output.md

После запускаoutput.md Он появится в текущей папке вместе с преобразованным содержимым Markdown.

Преобразование определенных страниц PDF

Если вы хотите преобразовать только определенные страницы, например, страницы 2-5, введите:

python main.py 2 5 < tests/input.pdf > output.md

Первый номер - это начальная страница, а второй - конечная. Номера страниц отсчитываются от 1.

Запуск с помощью Docker

Не хотите устанавливать среду Python? Убедитесь, что на вашем компьютере есть Docker, и запустите его:

docker run -i -e OPENAI_API_KEY=<你的API密钥> jorben/markpdfdown < tests/input.pdf > output.md

Это преобразует файл непосредственно через контейнер Docker.

Функции

  • Основные функции: преобразование PDF в Markdown
    Перетащите PDF-файл в окно командной строки или введите путь к файлу напрямую, и инструмент автоматически проанализирует содержимое. Заголовок станет #, и## и т.д., список состоит из - представлена в виде таблицы, а сама таблица выводится в формате Markdown.
    Например, можно преобразовать PDF с заголовком "Введение" и текстом "Это содержание":
# 简介
这是内容
  • пакетный файл
    Если файлов PDF много, можно написать скрипт, который будет вызывать команду в цикле. Например, в Linux:
for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done
  • Отладка и совершенствование
    Результаты преобразования не устраивают? Задайте вопрос на GitHub или измените код самостоятельно. Проект написан на Python, а вся логика находится в разделе main.py Миля.

предостережение

  • Путь к файлу не должен содержать китайских иероглифов, иначе может возникнуть ошибка.
  • Ключ API должен храниться в секрете и не раскрываться другим лицам.
  • Обработка больших файлов может занимать больше времени, что обеспечивает стабильную работу сети.

 

сценарий применения

  1. научные исследования
    Студентам и исследователям часто требуется преобразовать PDF-файл диссертации в Markdown для удобства ведения заметок или обмена информацией. MarkPDFDown сохраняет структуру диссертации, например заголовки и таблицы, для прямого редактирования в Markdown.
  2. Документация
    У компаний есть множество инструкций или отчетов в формате PDF, которые они хотят преобразовать в архивы Markdown. С помощью этого инструмента вы можете пакетно конвертировать их, а затем загрузить на GitHub или Notion.
  3. Техническое письмо
    При написании технических блогов вам приходится цитировать материалы в формате PDF. Конвертируйте их напрямую и вставляйте в редактор Markdown, избавляя вас от необходимости разбираться с ними вручную.

 

QA

  1. Нужна ли мне сеть?
    Да. Инструмент опирается на API OpenAI и для работы должен быть подключен к сети.
  2. Поддерживает ли он китайский формат PDF?
    Поддержка. Если PDF-файл имеет текстовый формат (а не отсканированное изображение), китайское содержимое может быть преобразовано должным образом.
  3. Что делать, если произошла ошибка конвертации?
    Проверьте, правильно ли введен ключ API или не поврежден ли файл PDF. Если это не поможет, зайдите на GitHub и поднимите вопрос.
  4. Можно ли использовать его в автономном режиме?
    Сейчас нет. Локальные модели могут быть поддержаны в будущем, но пока это должен быть сервис OpenAI.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...