HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео
Общее введение
HumanOmni - это мультимодальная модель с открытым исходным кодом, разработанная командой HumanMLLM и размещенная на GitHub. Она ориентирована на анализ человеческого видео и может обрабатывать как изображение, так и звук, чтобы помочь понять эмоции, действия и разговорный контент. В проекте использовалось 2,4 миллиона видеоклипов, ориентированных на человека, и 14 миллионов команд для предварительного обучения, а также 50 тысяч помеченных вручную видеоклипов с более чем 100 тысячами команд для тонкой настройки. HumanOmni обрабатывает сценарии, связанные с лицом, телом и взаимодействием, в трех ветвях и динамически адаптирует методы слияния на основе входных данных. Это первая в отрасли мультимодальная модель, ориентированная на человека, и она превосходит многие аналогичные модели. Команда также выпустила основанную на ней модель R1-Omni, в которой впервые применено обучение с подкреплением для улучшения вывода. Код и некоторые наборы данных открыты для свободного доступа исследователей и разработчиков.

Список функций
- распознавание эмоций: Анализируйте выражения лиц и тональность голоса в видеороликах, чтобы определить эмоции персонажей, такие как счастье, злость или грусть.
- Описание выражений лица: Узнавайте и описывайте детали лица человека, например, улыбку или хмурый взгляд.
- Понимание действия: Анализируйте движения людей на видео и описывайте, что они делают, например, ходят или машут руками.
- обработка речи: Извлечение содержимого из аудио с поддержкой распознавания речи и анализа интонаций.
- мультимодальное слияние: Сочетание изображения и звука позволяет понять сложные сцены и провести более точный анализ.
- Динамическая регулировка ветвей: Работайте с различными сценами, используя три ветви: лицо, тело и взаимодействие, автоматически регулируя вес.
- Поддержка открытых источников:: Предоставление кода, предварительно обученных моделей и частичных наборов данных для поддержки вторичной разработки.
Использование помощи
HumanOmni подходит для пользователей с техническим образованием, таких как разработчики или исследователи. Приведенные ниже шаги по установке и использованию достаточно подробны, чтобы сразу же приступить к работе.
Процесс установки
Чтобы запустить HumanOmni, необходимо сначала подготовить среду. Ниже перечислены конкретные шаги:
- Проверьте требования к аппаратному и программному обеспечению
- Операционная система: поддерживает Linux, Windows или macOS.
- Python: требуется версия 3.10 или выше.
- Рекомендуется CUDA: 12.1 или выше (при использовании GPU).
- PyTorch: требуется версия 2.2 или выше с поддержкой CUDA.
- Оборудование: рекомендуется использовать графические процессоры NVIDIA, процессоры работают, но медленно.
- Код загрузки
Откройте терминал и введите команду для загрузки проекта:
git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni
- Создание виртуальной среды
Создайте отдельные среды с Conda, чтобы избежать конфликтов:
conda create -n humanOmni python=3.10 -y
conda activate humanOmni
- Установка зависимостей
Проект имеетrequirements.txt
файл, в котором перечислены необходимые библиотеки. Выполните следующую команду, чтобы установить их:
pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
- Скачать модельные веса
HumanOmni имеет три модели:
HumanOmni-Video
: Обработка видео, 7B Параметры.HumanOmni-Audio
: Обработка аудио, 7B Параметры.HumanOmni-Omni
: слияние видео и аудио, 7B параметров (обозначается как HumanOmni).
Загрузите, например, с сайта Hugging Face или ModelScope:- ЧеловекОмни-7В
- HumanOmni-7B-Video
Скачайте его и поместите в папку с проектом.
- Проверка установки
Проверьте окружение с помощью команды test:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."
Если выводится видеоописание, установка прошла успешно.
Функции Поток операций
В основе HumanOmni лежит анализ видео и аудио. Ниже подробно описано, как работают основные функции.
1. Эмоциональная идентификация
- перейти
- Подготовьте видеоролик с персонажем (например.
sample.mp4
). - Выполнить команду:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"
- Модель выдает такие эмоции, как "гнев" или "счастье".
- принимать к сведению
- Видео должно быть четким, а выражения и голоса персонажей - узнаваемыми.
- Длинные видео могут потребовать больше времени на вычисления.
2. Описание мимики
- перейти
- Введите видео и запустите:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"
- Вывод может быть "улыбка" или "хмурый взгляд" с кратким описанием.
- предложение
- Тестирование с помощью короткого 10-30-секундного видеоролика работает лучше.
3. Понимание движения
- перейти
- Введите видео и запустите:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."
- Выводит описание действия, например "человек идет".
- изысканность
- Убедитесь, что действие очевидно, и избегайте фоновых помех.
4. обработка речи
- перейти
- Ввод видео со звуком, запуск:
python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"
- Выведите голосовой контент, например, "Собаки сидят у двери".
- принимать к сведению
- Звук должен быть четким и лучше всего работать без помех.
5. Мультимодальное слияние
- перейти
- Ввод видео и аудио, запуск:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."
- Модель даст полное описание в сочетании с изображением и звуком.
- доминирование
- Возможность фиксировать взаимосвязь между эмоциями и действиями для более полного анализа.
6. обучение на пользовательских наборах данных
- перейти
- Подготовьте файл данных в формате JSON, содержащий путь к видео и диалог команд. Например:
[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]
- загрузка
HumanOmni-7B-Video
ответить пениемHumanOmni-7B-Audio
Вес. - Запустите сценарий обучения:
bash scripts/train/finetune_humanomni.sh
- использовать
- Можно оптимизировать модель, используя собственные видеоданные.
Часто задаваемые вопросы
- Ошибка времени выполнения: Проверьте, что версии Python и PyTorch совпадают.
- Отказ при нагружении модели: Убедитесь, что путь верен и что на диске достаточно места (около 10 ГБ для модели).
- Результаты не являются точными.: Переключение на чистое видео или настройка представления инструкций.
С помощью этих шагов пользователи смогут легко установить и использовать HumanOmni и оценить его мощные возможности.
сценарий применения
- Образовательные исследования
Анализируйте видеозаписи из класса, чтобы определить настроение и вовлеченность учеников и помочь учителям скорректировать свой стиль преподавания. - ассистирование врачам
Выражение лица и тон голоса пациента помогают врачу определить психологическое состояние, например, тревогу или депрессию. - производство фильмов и телепередач
Анализируйте эмоции и действия персонажей для создания субтитров или описания сюжета, чтобы повысить творческую эффективность. - социальная аналитика
Используется для видеоконференций, чтобы понять эмоции и поведение участников и оптимизировать общение.
QA
- Какие форматы файлов поддерживаются?
Поддерживает формат MP4, аудио должно быть встроено в видео. - Нужна ли мне сеть?
Не требуется. Загрузите код и модель для автономного использования. - Как работает модель?
Что касается эмоционального восприятия, DFEW UAR HumanOmni составил 74,861 TP3T, что значительно превышает 50,571 TP3T GPT4-O. Средний балл за понимание действий составил 72,6, что выше 67,7 балла Qwen2-VL-7B. - Могут ли обычные люди использовать его?
Необходимы базовые навыки программирования. Если вы не умеете программировать, рекомендуется обратиться за помощью к техническому специалисту.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...