PDF Craft: преобразование отсканированных документов PDF в Markdown с открытым исходным кодом

Общее введение

PDF Craft - это инструмент с открытым исходным кодом, предназначенный для сканирования PDF-файлов книг и преобразования их в формат Markdown. Он разработан лабораторией oomol-lab и размещен на GitHub для пользователей, которые любят организовывать свои электронные книги. Инструмент работает через локальную модель искусственного интеллекта и не требует подключения к интернету, что защищает конфиденциальность и облегчает работу. Он извлекает основной текст из отсканированных документов, удаляет различные элементы, такие как заголовки и колонтитулы, и создает чистый файл в формате Markdown, который особенно подходит для упорядочивания старых книг или исследовательских материалов.

PDF Craft:PDF扫描文件转Markdown的开源工具

 

Список функций

  • Конвертируйте отсканированные книги PDF в формат Markdown с поддержкой встроенной обработки.
  • Извлечение основного содержимого и автоматическая фильтрация заголовков, колонтитулов и номеров страниц.
  • Работайте с текстом на разных страницах и сохраняйте связность предложений.
  • Поддержка иллюстраций и скриншотов таблиц, встроенных в файлы Markdown.
  • Используйте искусственный интеллект для анализа расположения страниц и организации текста в порядке чтения.
  • Возможность расширения до формата EPUB для создания файлов электронных книг.

 

Использование помощи

PDF Craft специализируется на сканировании книг из PDF в Markdown. Здесь подробно описаны шаги по установке и использованию, которые помогут вам быстро начать работу.

Процесс установки

  1. Подготовка среды
    Вам понадобится компьютер с установленной версией Python 3.8 или выше. Убедитесь, что на жестком диске достаточно места для хранения моделей ИИ.
  2. Код загрузки
    Откройте терминал и введите команду Clone Project:
git clone https://github.com/oomol-lab/pdf-craft.git

Затем перейдите к каталогу:

cd pdf-craft
  1. Установка зависимостей
    Введите следующую команду для установки необходимых библиотек:
pip install -r requirements.txt

Если у вас есть GPU, вы можете добавить поддержку CUDA:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. Получение модели
    При первом запуске инструмент автоматически загрузит модель AI (например, DocLayout-YOLO). Сохраняя сеть открытой, модель будет сохранена в <model_dir_path>(может быть задано в коде).

рабочий процесс

Преобразование в Markdown

  1. Подготовить PDF
    Поместите отсканированные PDF-файлы книг в папку, например /path/to/pdf/book.pdf.
  2. преобразование во время выполнения
    Введите в терминал следующий код:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu": Работает на центральном процессоре. Поддержка GPU читает device="cuda:0".
  • markdown_path: Путь к выходному файлу Markdown.
  • image_dir: Каталог сохраненных иллюстраций.
  1. Посмотреть результаты
    Когда закончите, откройте /path/to/output.md Проверьте содержимое. Иллюстрации автоматически сохраняются в images Папка.

Функциональное управление

  • извлечение текста
    Инструмент распознает отсканированные страницы, удаляет верхние и нижние колонтитулы и сохраняет только основной текст. Вам не нужно вручную убирать беспорядок.
  • межстраничная обработка
    Если предложение усекается разрывом страницы, PDF Craft автоматически соединяет его, чтобы обеспечить плавное перетекание текста.
  • Встраивание иллюстраций
    Изображения или таблицы в отсканированных книгах будут сфотографированы и вставлены в Markdown. Вы можете найти их в images папку, чтобы найти их.

наконечник

  • Качество сканирования PDF должно быть четким, иначе распознавание может быть ошибочным.
  • При первом запуске модель будет загружена, после чего она станет доступна в автономном режиме.
  • Если он работает медленно, попробуйте использовать GPU-ускорение или уменьшить количество страниц.

 

сценарий применения

  1. Упорядочить старые книги
    У вас есть отсканированные PDF-файлы старых книг, которые вы хотите преобразовать в Markdown для редактирования. PDF Craft поможет избавиться от беспорядка и создать чистые файлы.
  2. Преобразование исследовательских данных
    Ученым необходимо преобразовать отсканированные документы в Markdown, чтобы делать заметки. Инструмент сохраняет текст и иллюстрации для удобства цитирования.
  3. Производство электронных книг
    Вы хотите превратить отсканированные PDF-файлы в редактируемые документы в формате Markdown. PDF Craft предлагает простые решения.

 

QA

  1. Поддерживает ли он только сканирование PDF-файлов?
    В основном оптимизирован для сканированных книжных PDF-файлов. Обычные текстовые PDF-файлы будут работать, но, вероятно, не так хорошо, как сканированные документы.
  2. Что делать с изображениями после преобразования?
    Изображение сохраняется в виде скриншота в указанную папку, а ссылка автоматически встраивается в Markdown.
  3. Почему первый запуск медленный?
    Потому что вам нужно загрузить модель ИИ. После этого игра становится быстрее.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...