ViTLP: извлечение структурированных данных из типографически сложных PDF-документов и визуально управляемая генерация предварительно обученных моделей для компоновки текста

Общее введение

ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) - проект с открытым исходным кодом, направленный на улучшение интеллектуальной обработки документов с помощью визуально управляемых генеративных моделей предварительного обучения компоновке текста. Проект был разработан командой Veason-silverbullet и представлен на NAACL 2024. Модель ViTLP, способная локализовать и распознавать OCR-текст, предоставляет предварительно обученные контрольные точки ViTLP-medium (380M), доступ к которым пользователи могут получить на Huggingface. Код и веса модели для проекта доступны на GitHub и поддерживают OCR-обработку изображений документов и генерацию текстовых макетов.

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

 

Список функций

  • Локализация и распознавание текста OCR: Модель ViTLP обеспечивает эффективную локализацию и распознавание текста OCR.
  • Модель предварительного обученияПредоставляются контрольные точки предварительного обучения ViTLP-medium (380M), которые могут использоваться непосредственно или настраиваться пользователем.
  • Обработка изображений документов: Поддержка загрузки изображений документов и обработки OCR.
  • Тонкая настройка моделирования: Предоставление инструментов тонкой настройки для поддержки последующего обучения на наборах данных OCR и VQA.
  • Инструменты для составления документов: Предоставляет инструменты синтеза документов с метаданными позиционирования.

 

Использование помощи

Процесс установки

  1. Клонируйте код проекта ViTLP:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. Установите зависимость:
   pip install -r requirements.txt
  1. Скачать Контрольные точки предварительной подготовки:
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Процесс использования

  1. Распознавание текста OCR::
    • Запустите сценарий OCR:
     python ocr.py
    
    • Загрузите изображение документа, и модель автоматически выполнит обработку OCR и выведет результаты.
  2. Тонкая настройка моделирования::
    • консультация./finetuningфайл инструкций в каталоге для последующего обучения на наборе данных OCR и наборе данных VQA.
    • Используйте инструмент синтеза документов для создания синтетических документов с метаданными позиционного ящика, чтобы улучшить обучение модели.
  3. Пакетное декодирование::
    • Используйте скрипты пакетного декодирования: bash
      bash decode.sh
    • Сценарий будет пакетно обрабатывать изображения документов и выводить результаты OCR.

Детальное управление функциями

  • Локализация и распознавание текста OCR: После загрузки изображения документа модель автоматически обнаруживает и распознает текстовую область и выводит информацию о содержании и расположении текста.
  • Тонкая настройка моделирования: Пользователи могут использовать предоставленные инструменты тонкой настройки для дальнейшего обучения модели в соответствии с их требованиями к набору данных и улучшения эффекта распознавания в конкретных сценариях.
  • Инструменты для составления документов: Создание документов с метаданными позиционирующего поля с помощью инструмента синтеза, чтобы помочь моделям лучше понять структуру и расположение текста во время обучения.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...