HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo

Introducción general

HumanOmni es un gran modelo multimodal de código abierto desarrollado por el equipo HumanMLLM y alojado en GitHub. Se centra en el análisis de vídeo humano y puede procesar tanto imágenes como sonidos para ayudar a comprender emociones, acciones y contenido conversacional. El proyecto utilizó 2,4 millones de clips de vídeo centrados en humanos y 14 millones de datos de instrucciones para el preentrenamiento, y 50.000 clips de vídeo etiquetados a mano con más de 100.000 instrucciones para el ajuste fino. humanOmni gestiona escenas faciales, corporales y de interacción en tres ramas, y adapta dinámicamente su enfoque de fusión en función de las entradas. Es el primer modelo multimodal centrado en el ser humano y supera a muchos modelos similares. El equipo también ha lanzado R1-Omni, basado en él, que incorpora por primera vez el aprendizaje por refuerzo para mejorar la inferencia. El código y algunos de los conjuntos de datos están abiertos para facilitar el acceso de investigadores y desarrolladores.

HumanOmni:分析人类视频情感和动作的多模态大模型

 

Lista de funciones

  • reconocimiento de emociones: Analiza las expresiones faciales y los tonos de voz de los vídeos para determinar las emociones de los personajes, como la alegría, el enfado o la tristeza.
  • Descripción de las expresiones faciales: Reconocer y describir detalles faciales de una persona, como una sonrisa o un ceño fruncido.
  • Acción ComprensiónAnaliza los movimientos de las personas en un vídeo y describe lo que están haciendo, como caminar o saludar.
  • procesamiento del habla: Extraiga contenido de audio con ayuda del reconocimiento de voz y el análisis de entonación.
  • fusión multimodal: Combina imagen y sonido para comprender escenas complejas y ofrecer análisis más precisos.
  • Ajuste dinámico de ramas: Maneja diferentes escenas con tres ramas: cara, cuerpo e interacción, ajustando automáticamente los pesos.
  • Soporte de código abiertoCódigo :: Proporcionar código, modelos preentrenados y conjuntos de datos parciales para apoyar el desarrollo secundario.

 

Utilizar la ayuda

HumanOmni es adecuado para usuarios con una base técnica, como desarrolladores o investigadores. Los siguientes pasos de instalación y uso son lo suficientemente detallados como para empezar de inmediato.

Proceso de instalación

Para ejecutar HumanOmni, primero debe preparar su entorno. Los siguientes son los pasos específicos:

  1. Compruebe los requisitos de hardware y software
    • Sistema operativo: Compatible con Linux, Windows o macOS.
    • Python: requiere la versión 3.10 o superior.
    • Se recomienda CUDA: 12.1 o superior (si se utiliza una GPU).
    • PyTorch: Requiere la versión 2.2 o superior con soporte CUDA.
    • Hardware: Se recomiendan las GPUs NVIDIA, las CPUs funcionan pero son lentas.
  2. Descargar código
    Abra un terminal e introduzca el comando para descargar el proyecto:
git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni
  1. Creación de un entorno virtual
    Crea entornos separados con Conda para evitar conflictos:
conda create -n humanOmni python=3.10 -y
conda activate humanOmni
  1. Instalación de dependencias
    El proyecto cuenta con un requirements.txt que enumera las bibliotecas necesarias. Ejecute el siguiente comando para instalarlas:
pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
  1. Descargar modelos de pesos
    HumanOmni tiene tres modelos:
  • HumanOmni-Video: Procesamiento de vídeo, 7B Parámetros.
  • HumanOmni-Audio: Procesamiento de Audio, 7B Parámetros.
  • HumanOmni-Omnifusión de vídeo y audio, parámetros 7B (denominado HumanOmni).
    Descárgalo desde Hugging Face o ModelScope, por ejemplo:
  • HumanOmni-7B
  • HumanOmni-7B-Vídeo
    Descárgalo y colócalo en la carpeta del proyecto.
  1. Verificar la instalación
    Compruebe el entorno con el comando de prueba:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

Si aparece la descripción del vídeo, la instalación se ha realizado correctamente.

Función Flujo de operaciones

El núcleo de HumanOmni es el análisis de vídeo y audio. A continuación se detalla el funcionamiento de las principales funciones.

1. Identificación emocional

  • mover
  • Prepara un vídeo que contenga un personaje (por ejemplo sample.mp4).
  • Ejecutar comando:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"
  • El modelo emite emociones como "enfadado" o "contento".
  • tenga en cuenta
  • El vídeo debe ser claro y las expresiones y voces de los personajes tienen que ser reconocibles.
  • Los vídeos más largos pueden requerir más tiempo de cálculo.

2. Descripción de las expresiones faciales

  • mover
  • Introduce el vídeo y ejecútalo:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"
  • La salida puede ser "sonrisa" o "ceño fruncido" con una breve descripción.
  • sugerencia
  • Probar con un vídeo corto de 10-30 segundos funciona mejor.

3. Comprensión del movimiento

  • mover
  • Introduce el vídeo y ejecútalo:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."
  • Emite una descripción de la acción, como "una persona está caminando".
  • finura
  • Asegúrese de que la acción sea obvia y evite el desorden de fondo.

4. Tratamiento de la voz

  • mover
  • Entrada de vídeo con audio, ejecuta:
python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"
  • Contenido de voz de salida, por ejemplo: "Los perros están sentados junto a la puerta".
  • tenga en cuenta
  • El audio debe ser claro y funcionar mejor sin ruido.

5. Fusión multimodal

  • mover
  • Introducir vídeo y audio, ejecutar:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."
  • El modelo ofrecerá una descripción completa junto con la imagen y el sonido.
  • vanguardia
  • Capacidad de captar la correlación entre emociones y acciones para un análisis más exhaustivo.

6. Formación sobre conjuntos de datos personalizados

  • mover
  • Prepare un archivo de datos en formato JSON que contenga la ruta del vídeo y el diálogo de comandos. Por ejemplo
[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]
  • descargando HumanOmni-7B-Video responder cantando HumanOmni-7B-Audio Pesos.
  • Ejecute el script de formación:
bash scripts/train/finetune_humanomni.sh
  • utilice
  • Es posible optimizar el modelo con sus propios datos de vídeo.

Preguntas frecuentes

  • Error de tiempo de ejecuciónComprobar que las versiones de Python y PyTorch coinciden.
  • Fallo de carga del modeloConfirme que la ruta es correcta y que hay suficiente espacio en disco (unos 10 GB para el modelo).
  • Los resultados no son exactos.: Cambia a vídeo claro o ajusta la presentación de las instrucciones.

Con estos pasos, los usuarios pueden instalar y utilizar fácilmente HumanOmni y experimentar sus potentes funciones.

 

escenario de aplicación

  1. Investigación educativa
    Analice los vídeos de clase para identificar el estado de ánimo y el compromiso de los alumnos y ayudar a los profesores a ajustar su estilo de enseñanza.
  2. asistencia médica
    La expresión y el tono de voz del paciente ayudan al médico a determinar estados psicológicos, como ansiedad o depresión.
  3. producción de cine y televisión
    Analice las emociones y acciones de los personajes para generar subtítulos o descripciones de la trama que mejoren la eficacia creativa.
  4. análisis social
    Se utiliza en las videoconferencias para comprender las emociones y el comportamiento de los participantes y optimizar la comunicación.

 

CONTROL DE CALIDAD

  1. ¿Qué formatos de archivo son compatibles?
    Admite el formato MP4, el audio debe estar incrustado en el vídeo.
  2. ¿Necesito trabajar en red?
    No es necesario. Descargue el código y el modelo para utilizarlos sin conexión.
  3. ¿Cómo funciona el modelo?
    En cuanto a la comprensión emocional, la UAR de los datos DFEW de HumanOmni ascendió a 74,861 TP3T, superando con creces los 50,571 TP3T de GPT4-O. La puntuación media de la comprensión de acciones fue de 72,6, superior a los 67,7 de Qwen2-VL-7B.
  4. ¿Puede utilizarlo la gente corriente?
    Se requieren conocimientos básicos de programación. Si no sabes programar, se recomienda pedir ayuda a un técnico.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...