TF-ID: инструмент для распознавания форм/изображений академических документов

Последние ресурсы по искусственному интеллектуОпубликовано 2 года назад Круг обмена ИИ

52.9K 00

Общее введение

TF-ID (Table/Figure IDentifier) - это семейство моделей обнаружения объектов, предназначенных для извлечения таблиц и изображений из научных статей. Проект был создан Ифэй Ху и размещен на GitHub. Модели TF-ID точно настроены на распознавание и извлечение таблиц и изображений из научных статей, поддерживая извлечение с текстом подписи или без него. Проект предоставляет полный обучающий код, веса моделей и наборы данных с ручными метками, все открыто под лицензией MIT.

Список функций

Извлечение таблиц и изображений из научных статей
Поддержка извлечения с текстом заголовка или без него
Предоставьте полный учебный код и весовые коэффициенты модели
Поддержка извлечения таблиц и изображений из файлов PDF
Доступно несколько вариантов моделей для удовлетворения различных потребностей

Использование помощи

Процесс установки

Хранилище клонирования:

git clone https://github.com/ai8hyf/TF-ID
cd TF-ID

Скачайте набор данных: Загрузите набор данных с сайта Hugging Face и распакуйте его в соответствующую директорию.
```
wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
unzip arxiv_paper_images.zip -d ./images
```
Преобразование формата набора данных:
```
python coco_to_florence.py
```
Модели обучения:
```
accelerate launch train.py
```

Процесс использования

Извлекает таблицы и изображения из одного изображения:
```
python inference.py --image_path path/to/image.png
```
Извлечение всех таблиц и изображений из файлов PDF:
```
python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
```

Подробная процедура работы

Извлечение таблиц и изображений из одного изображения::
- Передает путь к изображению вinference.pyскрипт, который будет использовать стандартную модель TF-ID-large для извлечения таблиц и изображений из изображения.
- Результаты извлечения будут возвращены в виде ограничительной рамки, определяющей положение таблицы и изображения на снимке.
Извлечение всех таблиц и изображений из файлов PDF::
- Передайте путь к файлу PDF в файлpdf_to_table_figures.pyСценарий, который извлечет все таблицы и изображения из PDF-файла и сохранит обрезанные изображения в указанный выходной каталог.
- По умолчанию для извлечения используется модель TF-ID-large, которую можно изменить, модифицировав скриптmodel_idпараметр для переключения на другую версию модели.
Модели обучения::
- После клонирования хранилища и загрузки набора данных воспользуйтесь командойcoco_to_florence.pyСценарий преобразует набор данных в формат Florence 2.
- пользоватьсяaccelerate launch train.pyКоманда запускает обучение модели, а файл контрольных точек сохраняется во время обучения.