ViTLP: извлечение структурированных данных из типографически сложных PDF-документов и визуально управляемая генерация предварительно обученных моделей для компоновки текста

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

54.7K 00

Общее введение

ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) - проект с открытым исходным кодом, направленный на улучшение интеллектуальной обработки документов с помощью визуально управляемых генеративных моделей предварительного обучения компоновке текста. Проект был разработан командой Veason-silverbullet и представлен на NAACL 2024. Модель ViTLP, способная локализовать и распознавать OCR-текст, предоставляет предварительно обученные контрольные точки ViTLP-medium (380M), доступ к которым пользователи могут получить на Huggingface. Код и веса модели для проекта доступны на GitHub и поддерживают OCR-обработку изображений документов и генерацию текстовых макетов.

Список функций

Локализация и распознавание текста OCR: Модель ViTLP обеспечивает эффективную локализацию и распознавание текста OCR.
Модель предварительного обученияПредоставляются контрольные точки предварительного обучения ViTLP-medium (380M), которые могут использоваться непосредственно или настраиваться пользователем.
Обработка изображений документов: Поддержка загрузки изображений документов и обработки OCR.
Тонкая настройка моделирования: Предоставление инструментов тонкой настройки для поддержки последующего обучения на наборах данных OCR и VQA.
Инструменты для составления документов: Предоставляет инструменты синтеза документов с метаданными позиционирования.

Использование помощи

Процесс установки

Клонируйте код проекта ViTLP:

   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP

Установите зависимость:

   pip install -r requirements.txt

Скачать Контрольные точки предварительной подготовки:

   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

Процесс использования

Распознавание текста OCR::
- Запустите сценарий OCR:
```
 python ocr.py
```
- Загрузите изображение документа, и модель автоматически выполнит обработку OCR и выведет результаты.
Тонкая настройка моделирования::
- консультация./finetuningфайл инструкций в каталоге для последующего обучения на наборе данных OCR и наборе данных VQA.
- Используйте инструмент синтеза документов для создания синтетических документов с метаданными позиционного ящика, чтобы улучшить обучение модели.
Пакетное декодирование::
- Используйте скрипты пакетного декодирования: bash bash decode.sh
- Сценарий будет пакетно обрабатывать изображения документов и выводить результаты OCR.

Детальное управление функциями

Локализация и распознавание текста OCR: После загрузки изображения документа модель автоматически обнаруживает и распознает текстовую область и выводит информацию о содержании и расположении текста.
Тонкая настройка моделирования: Пользователи могут использовать предоставленные инструменты тонкой настройки для дальнейшего обучения модели в соответствии с их требованиями к набору данных и улучшения эффекта распознавания в конкретных сценариях.
Инструменты для составления документов: Создание документов с метаданными позиционирующего поля с помощью инструмента синтеза, чтобы помочь моделям лучше понять структуру и расположение текста во время обучения.