MinerU: извлечение и преобразование PDF-документов в мультимодальный формат Markdown, поддержка OCR-сканирования электронных книг
Общее введение
MinerU - это инструмент извлечения данных с открытым исходным кодом, разработанный командой OpenDataLab Шанхайской лаборатории искусственного интеллекта и предназначенный для эффективного извлечения контента из сложных PDF-документов, веб-страниц и электронных книг. Он способен конвертировать мультимодальные PDF-документы, содержащие изображения, формулы, таблицы и другие элементы, в удобный для анализа формат Markdown, что значительно повышает эффективность подготовки корпусов ИИ. MinerU состоит из двух основных компонентов: Magic-PDF и Magic-Doc, которые используются для обработки PDF-документов, веб-страниц и электронных книг соответственно. Инструмент поддерживает кроссплатформенную работу и совместим с системами Windows, Linux и macOS.
Онлайн-опыт MinerUmodelscopeобнимая лицо

Список функций
- Автоматическое удаление заголовков, колонтитулов, сносок и номеров страниц из PDF-файлов
- Сохраните структуру и форматирование исходного документа, такие как заголовки, абзацы, списки и т. д.
- Преобразование изображений и таблиц в документах в формат Markdown
- Преобразование математических формул в PDF в формат LaTeX
- Совместимость с операционными системами Windows, Linux и macOS
- Поддержка извлечения содержимого из веб-страниц и электронных книг
Использование помощи
Процесс установки
- Подготовка к защите окружающей среды::
- Убедитесь, что в вашей системе установлен Python 3.9 или более поздней версии.
- Чтобы избежать конфликтов зависимостей, рекомендуется использовать виртуальное окружение (например, venv или conda).
- Установка зависимостей::
- Создайте виртуальную среду с помощью conda:
conda create -n MinerU python=3.10 conda activate MinerU
- Или используйте venv:
python -m venv MinerU source MinerU/bin/activate # 在Linux或macOS上 MinerU\Scripts\activate # 在Windows上
- Создайте виртуальную среду с помощью conda:
- Установите Magic-PDF::
- Установите зависимости, особенно detectron2, который является полнофункциональным пакетом для компиляции и установки. Используйте следующую команду для установки предварительно скомпилированного пакета detectron2 (только для Python 3.10):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Установите полнофункциональный пакет Magic-PDF:
pip install magic-pdf[full]==0.6.2b1
- Установите зависимости, особенно detectron2, который является полнофункциональным пакетом для компиляции и установки. Используйте следующую команду для установки предварительно скомпилированного пакета detectron2 (только для Python 3.10):
- Загрузите файл с весами модели::
- Загрузите файл весов модели в соответствии с инструкциями в проектной документации и переместите его в каталог с достаточным количеством места на диске, предпочтительно на SSD.
- Настройка Magic-PDF::
- Скопируйте файл конфигурации magic-pdf.template.json из корневого каталога репозитория в рабочий каталог и переименуйте его в magic-pdf.json:
cp magic-pdf.template.json ~/magic-pdf.json
- Настройте "models-dir" в файле magic-pdf.json, чтобы он указывал на каталог, в котором находятся веса моделей:
{ "models-dir": "/tmp/models" }
- Скопируйте файл конфигурации magic-pdf.template.json из корневого каталога репозитория в рабочий каталог и переименуйте его в magic-pdf.json:
- Конфигурация ускорения (если требуется)::
- Если у вас есть доступный графический процессор Nvidia или вы используете Mac с Apple Silicon, вы можете использовать CUDA или MPS для ускорения. Для CUDA установите версию PyTorch, соответствующую вашей версии CUDA:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- Измените значение параметра "device-mode" в файле конфигурации magic-pdf.json, чтобы включить ускорение.
- Если у вас есть доступный графический процессор Nvidia или вы используете Mac с Apple Silicon, вы можете использовать CUDA или MPS для ускорения. Для CUDA установите версию PyTorch, соответствующую вашей версии CUDA:
Использование Magic-PDF
Используйте Magic-PDF через командную строку:
magic-pdf pdf-command --pdf "pdf_path" --inside_model true
Это позволит обработать указанный PDF-файл и сохранить полученный Markdown-файл в каталоге /tmp/magic-pdf.
Использование Magic-Doc
Процесс установки и настройки Magic-Doc аналогичен Magic-PDF, но конкретные команды и детали конфигурации могут отличаться. Для получения дополнительной информации обратитесь к документации проекта.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...