Gaze-LLE: инструмент предсказания цели для взгляда человека в видео

Последние ресурсы по искусственному интеллектуОбновлено 11 месяцев назад Круг обмена ИИ

52.2K 00

Общее введение

Gaze-LLE - это инструмент для предсказания цели взгляда, основанный на крупномасштабном обучаемом кодере. Проект, разработанный Фионой Райан, Аджаем Бати, Сангмином Ли, Даниэлем Болья, Джуди Хоффман и Джеймсом М. Регом, направлен на эффективное предсказание цели взгляда с помощью предварительно обученных визуальных базовых моделей, таких как DINOv2. Архитектура Gaze-LLE чиста и проста, и только замораживает предварительно обученный Архитектура Gaze-LLE чиста и проста, она только замораживает предварительно обученный визуальный кодер для обучения легкого декодера взгляда, что уменьшает количество параметров на 1-2 порядка по сравнению с предыдущими работами и не требует дополнительных входных модальностей, таких как глубина и информация о позе.

Список функций

Сосредоточьтесь на прогнозировании целейЭффективное предсказание целей взгляда на основе предварительно обученных визуальных кодеров.
Прогнозирование с помощью нескольких взглядов: поддерживает предсказание взгляда для нескольких человек на одном изображении.
Модель предварительного обучения: Предоставляет множество предварительно обученных моделей для поддержки различных магистральных сетей и обучающих данных.
Легкая архитектура: Обучение легких декодеров взгляда только на замороженных предварительно обученных визуальных кодерах.
Никаких дополнительных режимов ввода: Дополнительные данные о глубине и ориентации не требуются.

Использование помощи

Процесс установки

Хранилище клонирования:

   git clone https://github.com/fkryan/gazelle.git
cd gazelle

Создайте виртуальную среду и установите зависимости:

   conda env create -f environment.yml
conda activate gazelle
pip install -e .

Дополнительно: установите xformers для ускорения расчетов внимания (если это поддерживается системой):

   pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118

Использование предварительно обученных моделей

Gaze-LLE предоставляет множество предварительно обученных моделей, которые пользователи могут загрузить и использовать по мере необходимости:

газельдинов2vitb14: Модель на основе DINOv2 ViT-B с обучающими данными из GazeFollow.
газельдинов2витл14: Модель на основе DINOv2 ViT-L с обучающими данными из GazeFollow.
газельдинов2vitb14_inout: Модель на основе DINOv2 ViT-B с обучающими данными для GazeFollow и VideoAttentionTarget.
газельбольшойvitl14_inout: Модель на основе DINOv2 ViT-L с обучающими данными для GazeFollow и VideoAttentionTarget.

Пример использования

Загрузите модель в PyTorch Hub:

   import torch
model, transform = torch.hub.load('fkryan/gazelle', 'gazelle_dinov2_vitb14')

Просмотрите демонстрационный блокнот в Google Colab, чтобы узнать, как определить цель взгляда на изображении.

следите за прогнозами

Gaze-LLE поддерживает предсказание взгляда для нескольких людей, т.е. одно изображение кодируется один раз, а затем характеристики используются для предсказания целей взгляда для нескольких людей на изображении. Модель выдает пространственную тепловую карту, представляющую вероятность расположения цели взгляда в сцене со значениями в диапазоне [0,1], где 1 означает наибольшую вероятность расположения цели взгляда.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

JobTech AI CV - платформа для создания и оптимизации резюме с помощью искусственного интеллекта, точно анализирующая проблемы и дающая рекомендации по оптимизации.

Последние ресурсы по искусственному интеллекту

9 месяцев назад

037.3K

Nano Banana - модель искусственного интеллекта для редактирования изображений от Google

Последние ресурсы по искусственному интеллекту

6 месяцев назад

065.6K

STORM: поиск данных в Интернете по темам, генерация статей с цитатами, длинные отчеты о статьях

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Создание отчета об углубленном исследовании # Диссертация

11 месяцев назад

048.6K

EditorJumper：Cursor/Trae/Windsurf和JetBrains无缝切换工具

EditorJumper: инструмент бесшовного переключения для Cursor/Trae/Windsurf и JetBrains

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

11 месяцев назад

055.5K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Gaze-LLE: инструмент предсказания цели для взгляда человека в видео

Общее введение

Список функций

Использование помощи

Процесс установки

Использование предварительно обученных моделей

Пример использования

следите за прогнозами

Фей: инструменты для исследования финансового рынка, интеллектуальные помощники для принятия инвестиционных решений

FramePainter: инструмент для редактирования изображений в стиле дудл с поддержкой искусственного интеллекта

Похожие статьи

JobTech AI CV - платформа для создания и оптимизации резюме с помощью искусственного интеллекта, точно анализирующая проблемы и дающая рекомендации по оптимизации.

Nano Banana - модель искусственного интеллекта для редактирования изображений от Google

STORM: поиск данных в Интернете по темам, генерация статей с цитатами, длинные отчеты о статьях

EditorJumper: инструмент бесшовного переключения для Cursor/Trae/Windsurf и JetBrains

Нет комментариев

Последние коллекции

Последние статьи

Gaze-LLE: инструмент предсказания цели для взгляда человека в видео

Общее введение

Список функций

Использование помощи

Процесс установки

Использование предварительно обученных моделей

Пример использования

следите за прогнозами

Фей: инструменты для исследования финансового рынка, интеллектуальные помощники для принятия инвестиционных решений

FramePainter: инструмент для редактирования изображений в стиле дудл с поддержкой искусственного интеллекта

Похожие статьи

JobTech AI CV - платформа для создания и оптимизации резюме с помощью искусственного интеллекта, точно анализирующая проблемы и дающая рекомендации по оптимизации.

Nano Banana - модель искусственного интеллекта для редактирования изображений от Google

STORM: поиск данных в Интернете по темам, генерация статей с цитатами, длинные отчеты о статьях

EditorJumper: инструмент бесшовного переключения для Cursor/Trae/Windsurf и JetBrains

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи