TF-ID: инструмент для распознавания форм/изображений академических документов

Общее введение

TF-ID (Table/Figure IDentifier) - это семейство моделей обнаружения объектов, предназначенных для извлечения таблиц и изображений из научных статей. Проект был создан Ифэй Ху и размещен на GitHub. Модели TF-ID точно настроены на распознавание и извлечение таблиц и изображений из научных статей, поддерживая извлечение с текстом подписи или без него. Проект предоставляет полный обучающий код, веса моделей и наборы данных с ручными метками, все открыто под лицензией MIT.

 

TF-ID:学术论文表格/图像识别工具

 

 

Список функций

  • Извлечение таблиц и изображений из научных статей
  • Поддержка извлечения с текстом заголовка или без него
  • Предоставьте полный учебный код и весовые коэффициенты модели
  • Поддержка извлечения таблиц и изображений из файлов PDF
  • Доступно несколько вариантов моделей для удовлетворения различных потребностей

 

 

Использование помощи

Процесс установки

  1. Хранилище клонирования:
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. Скачайте набор данных: Загрузите набор данных с сайта Hugging Face и распакуйте его в соответствующую директорию.
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. Преобразование формата набора данных:
    python coco_to_florence.py
    
  4. Модели обучения:
    accelerate launch train.py
    

Процесс использования

  1. Извлекает таблицы и изображения из одного изображения:
    python inference.py --image_path path/to/image.png
    
  2. Извлечение всех таблиц и изображений из файлов PDF:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

Подробная процедура работы

  1. Извлечение таблиц и изображений из одного изображения::
    • Передает путь к изображению вinference.pyскрипт, который будет использовать стандартную модель TF-ID-large для извлечения таблиц и изображений из изображения.
    • Результаты извлечения будут возвращены в виде ограничительной рамки, определяющей положение таблицы и изображения на снимке.
  2. Извлечение всех таблиц и изображений из файлов PDF::
    • Передайте путь к файлу PDF в файлpdf_to_table_figures.pyСценарий, который извлечет все таблицы и изображения из PDF-файла и сохранит обрезанные изображения в указанный выходной каталог.
    • По умолчанию для извлечения используется модель TF-ID-large, которую можно изменить, модифицировав скриптmodel_idпараметр для переключения на другую версию модели.
  3. Модели обучения::
    • После клонирования хранилища и загрузки набора данных воспользуйтесь командойcoco_to_florence.pyСценарий преобразует набор данных в формат Florence 2.
    • пользоватьсяaccelerate launch train.pyКоманда запускает обучение модели, а файл контрольных точек сохраняется во время обучения.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...