MinerU: извлечение и преобразование PDF-документов в мультимодальный формат Markdown, поддержка OCR-сканирования электронных книг

Общее введение

MinerU - это инструмент извлечения данных с открытым исходным кодом, разработанный командой OpenDataLab Шанхайской лаборатории искусственного интеллекта и предназначенный для эффективного извлечения контента из сложных PDF-документов, веб-страниц и электронных книг. Он способен конвертировать мультимодальные PDF-документы, содержащие изображения, формулы, таблицы и другие элементы, в удобный для анализа формат Markdown, что значительно повышает эффективность подготовки корпусов ИИ. MinerU состоит из двух основных компонентов: Magic-PDF и Magic-Doc, которые используются для обработки PDF-документов, веб-страниц и электронных книг соответственно. Инструмент поддерживает кроссплатформенную работу и совместим с системами Windows, Linux и macOS.

Онлайн-опыт MinerUmodelscopeобнимая лицо

 

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

 

Список функций

  • Автоматическое удаление заголовков, колонтитулов, сносок и номеров страниц из PDF-файлов
  • Сохраните структуру и форматирование исходного документа, такие как заголовки, абзацы, списки и т. д.
  • Преобразование изображений и таблиц в документах в формат Markdown
  • Преобразование математических формул в PDF в формат LaTeX
  • Совместимость с операционными системами Windows, Linux и macOS
  • Поддержка извлечения содержимого из веб-страниц и электронных книг

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды::
    • Убедитесь, что в вашей системе установлен Python 3.9 или более поздней версии.
    • Чтобы избежать конфликтов зависимостей, рекомендуется использовать виртуальное окружение (например, venv или conda).
  2. Установка зависимостей::
    • Создайте виртуальную среду с помощью conda:
      conda create -n MinerU python=3.10
      conda activate MinerU
      
    • Или используйте venv:
      python -m venv MinerU
      source MinerU/bin/activate  # 在Linux或macOS上
      MinerU\Scripts\activate  # 在Windows上
      
  3. Установите Magic-PDF::
    • Установите зависимости, особенно detectron2, который является полнофункциональным пакетом для компиляции и установки. Используйте следующую команду для установки предварительно скомпилированного пакета detectron2 (только для Python 3.10):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Установите полнофункциональный пакет Magic-PDF:
      pip install magic-pdf[full]==0.6.2b1
      
  4. Загрузите файл с весами модели::
    • Загрузите файл весов модели в соответствии с инструкциями в проектной документации и переместите его в каталог с достаточным количеством места на диске, предпочтительно на SSD.
  5. Настройка Magic-PDF::
    • Скопируйте файл конфигурации magic-pdf.template.json из корневого каталога репозитория в рабочий каталог и переименуйте его в magic-pdf.json:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • Настройте "models-dir" в файле magic-pdf.json, чтобы он указывал на каталог, в котором находятся веса моделей:
      {
        "models-dir": "/tmp/models"
      }
      
  6. Конфигурация ускорения (если требуется)::
    • Если у вас есть доступный графический процессор Nvidia или вы используете Mac с Apple Silicon, вы можете использовать CUDA или MPS для ускорения. Для CUDA установите версию PyTorch, соответствующую вашей версии CUDA:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • Измените значение параметра "device-mode" в файле конфигурации magic-pdf.json, чтобы включить ускорение.

Использование Magic-PDF

Используйте Magic-PDF через командную строку:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

Это позволит обработать указанный PDF-файл и сохранить полученный Markdown-файл в каталоге /tmp/magic-pdf.

Использование Magic-Doc

Процесс установки и настройки Magic-Doc аналогичен Magic-PDF, но конкретные команды и детали конфигурации могут отличаться. Для получения дополнительной информации обратитесь к документации проекта.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...