ViTLP: извлечение структурированных данных из типографически сложных PDF-документов и визуально управляемая генерация предварительно обученных моделей для компоновки текста
Общее введение
ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) - проект с открытым исходным кодом, направленный на улучшение интеллектуальной обработки документов с помощью визуально управляемых генеративных моделей предварительного обучения компоновке текста. Проект был разработан командой Veason-silverbullet и представлен на NAACL 2024. Модель ViTLP, способная локализовать и распознавать OCR-текст, предоставляет предварительно обученные контрольные точки ViTLP-medium (380M), доступ к которым пользователи могут получить на Huggingface. Код и веса модели для проекта доступны на GitHub и поддерживают OCR-обработку изображений документов и генерацию текстовых макетов.

Список функций
- Локализация и распознавание текста OCR: Модель ViTLP обеспечивает эффективную локализацию и распознавание текста OCR.
- Модель предварительного обученияПредоставляются контрольные точки предварительного обучения ViTLP-medium (380M), которые могут использоваться непосредственно или настраиваться пользователем.
- Обработка изображений документов: Поддержка загрузки изображений документов и обработки OCR.
- Тонкая настройка моделирования: Предоставление инструментов тонкой настройки для поддержки последующего обучения на наборах данных OCR и VQA.
- Инструменты для составления документов: Предоставляет инструменты синтеза документов с метаданными позиционирования.
Использование помощи
Процесс установки
- Клонируйте код проекта ViTLP:
git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
- Установите зависимость:
pip install -r requirements.txt
- Скачать Контрольные точки предварительной подготовки:
mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium
Процесс использования
- Распознавание текста OCR::
- Запустите сценарий OCR:
python ocr.py
- Загрузите изображение документа, и модель автоматически выполнит обработку OCR и выведет результаты.
- Тонкая настройка моделирования::
- консультация
./finetuning
файл инструкций в каталоге для последующего обучения на наборе данных OCR и наборе данных VQA. - Используйте инструмент синтеза документов для создания синтетических документов с метаданными позиционного ящика, чтобы улучшить обучение модели.
- консультация
- Пакетное декодирование::
- Используйте скрипты пакетного декодирования:
bash
bash decode.sh - Сценарий будет пакетно обрабатывать изображения документов и выводить результаты OCR.
- Используйте скрипты пакетного декодирования:
Детальное управление функциями
- Локализация и распознавание текста OCR: После загрузки изображения документа модель автоматически обнаруживает и распознает текстовую область и выводит информацию о содержании и расположении текста.
- Тонкая настройка моделирования: Пользователи могут использовать предоставленные инструменты тонкой настройки для дальнейшего обучения модели в соответствии с их требованиями к набору данных и улучшения эффекта распознавания в конкретных сценариях.
- Инструменты для составления документов: Создание документов с метаданными позиционирующего поля с помощью инструмента синтеза, чтобы помочь моделям лучше понять структуру и расположение текста во время обучения.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...