HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Общее введение

HumanOmni - это мультимодальная модель с открытым исходным кодом, разработанная командой HumanMLLM и размещенная на GitHub. Она ориентирована на анализ человеческого видео и может обрабатывать как изображение, так и звук, чтобы помочь понять эмоции, действия и разговорный контент. В проекте использовалось 2,4 миллиона видеоклипов, ориентированных на человека, и 14 миллионов команд для предварительного обучения, а также 50 тысяч помеченных вручную видеоклипов с более чем 100 тысячами команд для тонкой настройки. HumanOmni обрабатывает сценарии, связанные с лицом, телом и взаимодействием, в трех ветвях и динамически адаптирует методы слияния на основе входных данных. Это первая в отрасли мультимодальная модель, ориентированная на человека, и она превосходит многие аналогичные модели. Команда также выпустила основанную на ней модель R1-Omni, в которой впервые применено обучение с подкреплением для улучшения вывода. Код и некоторые наборы данных открыты для свободного доступа исследователей и разработчиков.

HumanOmni:分析人类视频情感和动作的多模态大模型

 

Список функций

  • распознавание эмоций: Анализируйте выражения лиц и тональность голоса в видеороликах, чтобы определить эмоции персонажей, такие как счастье, злость или грусть.
  • Описание выражений лица: Узнавайте и описывайте детали лица человека, например, улыбку или хмурый взгляд.
  • Понимание действия: Анализируйте движения людей на видео и описывайте, что они делают, например, ходят или машут руками.
  • обработка речи: Извлечение содержимого из аудио с поддержкой распознавания речи и анализа интонаций.
  • мультимодальное слияние: Сочетание изображения и звука позволяет понять сложные сцены и провести более точный анализ.
  • Динамическая регулировка ветвей: Работайте с различными сценами, используя три ветви: лицо, тело и взаимодействие, автоматически регулируя вес.
  • Поддержка открытых источников:: Предоставление кода, предварительно обученных моделей и частичных наборов данных для поддержки вторичной разработки.

 

Использование помощи

HumanOmni подходит для пользователей с техническим образованием, таких как разработчики или исследователи. Приведенные ниже шаги по установке и использованию достаточно подробны, чтобы сразу же приступить к работе.

Процесс установки

Чтобы запустить HumanOmni, необходимо сначала подготовить среду. Ниже перечислены конкретные шаги:

  1. Проверьте требования к аппаратному и программному обеспечению
    • Операционная система: поддерживает Linux, Windows или macOS.
    • Python: требуется версия 3.10 или выше.
    • Рекомендуется CUDA: 12.1 или выше (при использовании GPU).
    • PyTorch: требуется версия 2.2 или выше с поддержкой CUDA.
    • Оборудование: рекомендуется использовать графические процессоры NVIDIA, процессоры работают, но медленно.
  2. Код загрузки
    Откройте терминал и введите команду для загрузки проекта:
git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni
  1. Создание виртуальной среды
    Создайте отдельные среды с Conda, чтобы избежать конфликтов:
conda create -n humanOmni python=3.10 -y
conda activate humanOmni
  1. Установка зависимостей
    Проект имеет requirements.txt файл, в котором перечислены необходимые библиотеки. Выполните следующую команду, чтобы установить их:
pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
  1. Скачать модельные веса
    HumanOmni имеет три модели:
  • HumanOmni-Video: Обработка видео, 7B Параметры.
  • HumanOmni-Audio: Обработка аудио, 7B Параметры.
  • HumanOmni-Omni: слияние видео и аудио, 7B параметров (обозначается как HumanOmni).
    Загрузите, например, с сайта Hugging Face или ModelScope:
  • ЧеловекОмни-7В
  • HumanOmni-7B-Video
    Скачайте его и поместите в папку с проектом.
  1. Проверка установки
    Проверьте окружение с помощью команды test:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

Если выводится видеоописание, установка прошла успешно.

Функции Поток операций

В основе HumanOmni лежит анализ видео и аудио. Ниже подробно описано, как работают основные функции.

1. Эмоциональная идентификация

  • перейти
  • Подготовьте видеоролик с персонажем (например. sample.mp4).
  • Выполнить команду:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"
  • Модель выдает такие эмоции, как "гнев" или "счастье".
  • принимать к сведению
  • Видео должно быть четким, а выражения и голоса персонажей - узнаваемыми.
  • Длинные видео могут потребовать больше времени на вычисления.

2. Описание мимики

  • перейти
  • Введите видео и запустите:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"
  • Вывод может быть "улыбка" или "хмурый взгляд" с кратким описанием.
  • предложение
  • Тестирование с помощью короткого 10-30-секундного видеоролика работает лучше.

3. Понимание движения

  • перейти
  • Введите видео и запустите:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."
  • Выводит описание действия, например "человек идет".
  • изысканность
  • Убедитесь, что действие очевидно, и избегайте фоновых помех.

4. обработка речи

  • перейти
  • Ввод видео со звуком, запуск:
python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"
  • Выведите голосовой контент, например, "Собаки сидят у двери".
  • принимать к сведению
  • Звук должен быть четким и лучше всего работать без помех.

5. Мультимодальное слияние

  • перейти
  • Ввод видео и аудио, запуск:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."
  • Модель даст полное описание в сочетании с изображением и звуком.
  • доминирование
  • Возможность фиксировать взаимосвязь между эмоциями и действиями для более полного анализа.

6. обучение на пользовательских наборах данных

  • перейти
  • Подготовьте файл данных в формате JSON, содержащий путь к видео и диалог команд. Например:
[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]
  • загрузка HumanOmni-7B-Video ответить пением HumanOmni-7B-Audio Вес.
  • Запустите сценарий обучения:
bash scripts/train/finetune_humanomni.sh
  • использовать
  • Можно оптимизировать модель, используя собственные видеоданные.

Часто задаваемые вопросы

  • Ошибка времени выполнения: Проверьте, что версии Python и PyTorch совпадают.
  • Отказ при нагружении модели: Убедитесь, что путь верен и что на диске достаточно места (около 10 ГБ для модели).
  • Результаты не являются точными.: Переключение на чистое видео или настройка представления инструкций.

С помощью этих шагов пользователи смогут легко установить и использовать HumanOmni и оценить его мощные возможности.

 

сценарий применения

  1. Образовательные исследования
    Анализируйте видеозаписи из класса, чтобы определить настроение и вовлеченность учеников и помочь учителям скорректировать свой стиль преподавания.
  2. ассистирование врачам
    Выражение лица и тон голоса пациента помогают врачу определить психологическое состояние, например, тревогу или депрессию.
  3. производство фильмов и телепередач
    Анализируйте эмоции и действия персонажей для создания субтитров или описания сюжета, чтобы повысить творческую эффективность.
  4. социальная аналитика
    Используется для видеоконференций, чтобы понять эмоции и поведение участников и оптимизировать общение.

 

QA

  1. Какие форматы файлов поддерживаются?
    Поддерживает формат MP4, аудио должно быть встроено в видео.
  2. Нужна ли мне сеть?
    Не требуется. Загрузите код и модель для автономного использования.
  3. Как работает модель?
    Что касается эмоционального восприятия, DFEW UAR HumanOmni составил 74,861 TP3T, что значительно превышает 50,571 TP3T GPT4-O. Средний балл за понимание действий составил 72,6, что выше 67,7 балла Qwen2-VL-7B.
  4. Могут ли обычные люди использовать его?
    Необходимы базовые навыки программирования. Если вы не умеете программировать, рекомендуется обратиться за помощью к техническому специалисту.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...