TF-ID: инструмент для распознавания форм/изображений академических документов
Общее введение
TF-ID (Table/Figure IDentifier) - это семейство моделей обнаружения объектов, предназначенных для извлечения таблиц и изображений из научных статей. Проект был создан Ифэй Ху и размещен на GitHub. Модели TF-ID точно настроены на распознавание и извлечение таблиц и изображений из научных статей, поддерживая извлечение с текстом подписи или без него. Проект предоставляет полный обучающий код, веса моделей и наборы данных с ручными метками, все открыто под лицензией MIT.

Список функций
- Извлечение таблиц и изображений из научных статей
- Поддержка извлечения с текстом заголовка или без него
- Предоставьте полный учебный код и весовые коэффициенты модели
- Поддержка извлечения таблиц и изображений из файлов PDF
- Доступно несколько вариантов моделей для удовлетворения различных потребностей
Использование помощи
Процесс установки
- Хранилище клонирования:
git clone https://github.com/ai8hyf/TF-ID cd TF-ID
- Скачайте набор данных: Загрузите набор данных с сайта Hugging Face и распакуйте его в соответствующую директорию.
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip unzip arxiv_paper_images.zip -d ./images
- Преобразование формата набора данных:
python coco_to_florence.py
- Модели обучения:
accelerate launch train.py
Процесс использования
- Извлекает таблицы и изображения из одного изображения:
python inference.py --image_path path/to/image.png
- Извлечение всех таблиц и изображений из файлов PDF:
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
Подробная процедура работы
- Извлечение таблиц и изображений из одного изображения::
- Передает путь к изображению в
inference.py
скрипт, который будет использовать стандартную модель TF-ID-large для извлечения таблиц и изображений из изображения. - Результаты извлечения будут возвращены в виде ограничительной рамки, определяющей положение таблицы и изображения на снимке.
- Передает путь к изображению в
- Извлечение всех таблиц и изображений из файлов PDF::
- Передайте путь к файлу PDF в файл
pdf_to_table_figures.py
Сценарий, который извлечет все таблицы и изображения из PDF-файла и сохранит обрезанные изображения в указанный выходной каталог. - По умолчанию для извлечения используется модель TF-ID-large, которую можно изменить, модифицировав скрипт
model_id
параметр для переключения на другую версию модели.
- Передайте путь к файлу PDF в файл
- Модели обучения::
- После клонирования хранилища и загрузки набора данных воспользуйтесь командой
coco_to_florence.py
Сценарий преобразует набор данных в формат Florence 2. - пользоваться
accelerate launch train.py
Команда запускает обучение модели, а файл контрольных точек сохраняется во время обучения.
- После клонирования хранилища и загрузки набора данных воспользуйтесь командой
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...