HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Последние ресурсы по искусственному интеллектуОпубликовано 10 месяцев назад Круг обмена ИИ

34.9K 00

Общее введение

HumanOmni - это мультимодальная модель с открытым исходным кодом, разработанная командой HumanMLLM и размещенная на GitHub. Она ориентирована на анализ человеческого видео и может обрабатывать как изображение, так и звук, чтобы помочь понять эмоции, действия и разговорный контент. В проекте использовалось 2,4 миллиона видеоклипов, ориентированных на человека, и 14 миллионов команд для предварительного обучения, а также 50 тысяч помеченных вручную видеоклипов с более чем 100 тысячами команд для тонкой настройки. HumanOmni обрабатывает сценарии, связанные с лицом, телом и взаимодействием, в трех ветвях и динамически адаптирует методы слияния на основе входных данных. Это первая в отрасли мультимодальная модель, ориентированная на человека, и она превосходит многие аналогичные модели. Команда также выпустила основанную на ней модель R1-Omni, в которой впервые применено обучение с подкреплением для улучшения вывода. Код и некоторые наборы данных открыты для свободного доступа исследователей и разработчиков.

Список функций

распознавание эмоций: Анализируйте выражения лиц и тональность голоса в видеороликах, чтобы определить эмоции персонажей, такие как счастье, злость или грусть.
Описание выражений лица: Узнавайте и описывайте детали лица человека, например, улыбку или хмурый взгляд.
Понимание действия: Анализируйте движения людей на видео и описывайте, что они делают, например, ходят или машут руками.
обработка речи: Извлечение содержимого из аудио с поддержкой распознавания речи и анализа интонаций.
мультимодальное слияние: Сочетание изображения и звука позволяет понять сложные сцены и провести более точный анализ.
Динамическая регулировка ветвей: Работайте с различными сценами, используя три ветви: лицо, тело и взаимодействие, автоматически регулируя вес.
Поддержка открытых источников:: Предоставление кода, предварительно обученных моделей и частичных наборов данных для поддержки вторичной разработки.

Использование помощи

HumanOmni подходит для пользователей с техническим образованием, таких как разработчики или исследователи. Приведенные ниже шаги по установке и использованию достаточно подробны, чтобы сразу же приступить к работе.

Процесс установки

Чтобы запустить HumanOmni, необходимо сначала подготовить среду. Ниже перечислены конкретные шаги:

Проверьте требования к аппаратному и программному обеспечению
- Операционная система: поддерживает Linux, Windows или macOS.
- Python: требуется версия 3.10 или выше.
- Рекомендуется CUDA: 12.1 или выше (при использовании GPU).
- PyTorch: требуется версия 2.2 или выше с поддержкой CUDA.
- Оборудование: рекомендуется использовать графические процессоры NVIDIA, процессоры работают, но медленно.
Код загрузки
Откройте терминал и введите команду для загрузки проекта:

git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni

Создание виртуальной среды
Создайте отдельные среды с Conda, чтобы избежать конфликтов:

conda create -n humanOmni python=3.10 -y
conda activate humanOmni

Установка зависимостей
Проект имеет requirements.txt файл, в котором перечислены необходимые библиотеки. Выполните следующую команду, чтобы установить их:

pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Скачать модельные веса
HumanOmni имеет три модели:

HumanOmni-Video: Обработка видео, 7B Параметры.
HumanOmni-Audio: Обработка аудио, 7B Параметры.
HumanOmni-Omni: слияние видео и аудио, 7B параметров (обозначается как HumanOmni).
Загрузите, например, с сайта Hugging Face или ModelScope:
ЧеловекОмни-7В
HumanOmni-7B-Video
Скачайте его и поместите в папку с проектом.

Проверка установки
Проверьте окружение с помощью команды test:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

Если выводится видеоописание, установка прошла успешно.

Функции Поток операций

В основе HumanOmni лежит анализ видео и аудио. Ниже подробно описано, как работают основные функции.

1. Эмоциональная идентификация

перейти
Подготовьте видеоролик с персонажем (например. sample.mp4).
Выполнить команду:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"

Модель выдает такие эмоции, как "гнев" или "счастье".
принимать к сведению
Видео должно быть четким, а выражения и голоса персонажей - узнаваемыми.
Длинные видео могут потребовать больше времени на вычисления.

2. Описание мимики

перейти
Введите видео и запустите:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"

Вывод может быть "улыбка" или "хмурый взгляд" с кратким описанием.
предложение
Тестирование с помощью короткого 10-30-секундного видеоролика работает лучше.

3. Понимание движения

перейти
Введите видео и запустите:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."

Выводит описание действия, например "человек идет".
изысканность
Убедитесь, что действие очевидно, и избегайте фоновых помех.

4. обработка речи

перейти
Ввод видео со звуком, запуск:

python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"

Выведите голосовой контент, например, "Собаки сидят у двери".
принимать к сведению
Звук должен быть четким и лучше всего работать без помех.

5. Мультимодальное слияние

перейти
Ввод видео и аудио, запуск:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."

Модель даст полное описание в сочетании с изображением и звуком.
доминирование
Возможность фиксировать взаимосвязь между эмоциями и действиями для более полного анализа.

6. обучение на пользовательских наборах данных

перейти
Подготовьте файл данных в формате JSON, содержащий путь к видео и диалог команд. Например:

[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]

загрузка HumanOmni-7B-Video ответить пением HumanOmni-7B-Audio Вес.
Запустите сценарий обучения:

bash scripts/train/finetune_humanomni.sh

использовать
Можно оптимизировать модель, используя собственные видеоданные.

Часто задаваемые вопросы

Ошибка времени выполнения: Проверьте, что версии Python и PyTorch совпадают.
Отказ при нагружении модели: Убедитесь, что путь верен и что на диске достаточно места (около 10 ГБ для модели).
Результаты не являются точными.: Переключение на чистое видео или настройка представления инструкций.

С помощью этих шагов пользователи смогут легко установить и использовать HumanOmni и оценить его мощные возможности.

сценарий применения

Образовательные исследования
Анализируйте видеозаписи из класса, чтобы определить настроение и вовлеченность учеников и помочь учителям скорректировать свой стиль преподавания.
ассистирование врачам
Выражение лица и тон голоса пациента помогают врачу определить психологическое состояние, например, тревогу или депрессию.
производство фильмов и телепередач
Анализируйте эмоции и действия персонажей для создания субтитров или описания сюжета, чтобы повысить творческую эффективность.
социальная аналитика
Используется для видеоконференций, чтобы понять эмоции и поведение участников и оптимизировать общение.

QA

Какие форматы файлов поддерживаются?
Поддерживает формат MP4, аудио должно быть встроено в видео.
Нужна ли мне сеть?
Не требуется. Загрузите код и модель для автономного использования.
Как работает модель?
Что касается эмоционального восприятия, DFEW UAR HumanOmni составил 74,861 TP3T, что значительно превышает 50,571 TP3T GPT4-O. Средний балл за понимание действий составил 72,6, что выше 67,7 балла Qwen2-VL-7B.
Могут ли обычные люди использовать его?
Необходимы базовые навыки программирования. Если вы не умеете программировать, рекомендуется обратиться за помощью к техническому специалисту.