HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 1.1K 00
Introducción general
HumanOmni es un gran modelo multimodal de código abierto desarrollado por el equipo HumanMLLM y alojado en GitHub. Se centra en el análisis de vídeo humano y puede procesar tanto imágenes como sonidos para ayudar a comprender emociones, acciones y contenido conversacional. El proyecto utilizó 2,4 millones de clips de vídeo centrados en humanos y 14 millones de datos de instrucciones para el preentrenamiento, y 50.000 clips de vídeo etiquetados a mano con más de 100.000 instrucciones para el ajuste fino. humanOmni gestiona escenas faciales, corporales y de interacción en tres ramas, y adapta dinámicamente su enfoque de fusión en función de las entradas. Es el primer modelo multimodal centrado en el ser humano y supera a muchos modelos similares. El equipo también ha lanzado R1-Omni, basado en él, que incorpora por primera vez el aprendizaje por refuerzo para mejorar la inferencia. El código y algunos de los conjuntos de datos están abiertos para facilitar el acceso de investigadores y desarrolladores.

Lista de funciones
- reconocimiento de emociones: Analiza las expresiones faciales y los tonos de voz de los vídeos para determinar las emociones de los personajes, como la alegría, el enfado o la tristeza.
- Descripción de las expresiones faciales: Reconocer y describir detalles faciales de una persona, como una sonrisa o un ceño fruncido.
- Acción ComprensiónAnaliza los movimientos de las personas en un vídeo y describe lo que están haciendo, como caminar o saludar.
- procesamiento del habla: Extraiga contenido de audio con ayuda del reconocimiento de voz y el análisis de entonación.
- fusión multimodal: Combina imagen y sonido para comprender escenas complejas y ofrecer análisis más precisos.
- Ajuste dinámico de ramas: Maneja diferentes escenas con tres ramas: cara, cuerpo e interacción, ajustando automáticamente los pesos.
- Soporte de código abiertoCódigo :: Proporcionar código, modelos preentrenados y conjuntos de datos parciales para apoyar el desarrollo secundario.
Utilizar la ayuda
HumanOmni es adecuado para usuarios con una base técnica, como desarrolladores o investigadores. Los siguientes pasos de instalación y uso son lo suficientemente detallados como para empezar de inmediato.
Proceso de instalación
Para ejecutar HumanOmni, primero debe preparar su entorno. Los siguientes son los pasos específicos:
- Compruebe los requisitos de hardware y software
- Sistema operativo: Compatible con Linux, Windows o macOS.
- Python: requiere la versión 3.10 o superior.
- Se recomienda CUDA: 12.1 o superior (si se utiliza una GPU).
- PyTorch: Requiere la versión 2.2 o superior con soporte CUDA.
- Hardware: Se recomiendan las GPUs NVIDIA, las CPUs funcionan pero son lentas.
- Descargar código
Abra un terminal e introduzca el comando para descargar el proyecto:
git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni
- Creación de un entorno virtual
Crea entornos separados con Conda para evitar conflictos:
conda create -n humanOmni python=3.10 -y
conda activate humanOmni
- Instalación de dependencias
El proyecto cuenta con unrequirements.txt
que enumera las bibliotecas necesarias. Ejecute el siguiente comando para instalarlas:
pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
- Descargar modelos de pesos
HumanOmni tiene tres modelos:
HumanOmni-Video
: Procesamiento de vídeo, 7B Parámetros.HumanOmni-Audio
: Procesamiento de Audio, 7B Parámetros.HumanOmni-Omni
fusión de vídeo y audio, parámetros 7B (denominado HumanOmni).
Descárgalo desde Hugging Face o ModelScope, por ejemplo:- HumanOmni-7B
- HumanOmni-7B-Vídeo
Descárgalo y colócalo en la carpeta del proyecto.
- Verificar la instalación
Compruebe el entorno con el comando de prueba:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."
Si aparece la descripción del vídeo, la instalación se ha realizado correctamente.
Función Flujo de operaciones
El núcleo de HumanOmni es el análisis de vídeo y audio. A continuación se detalla el funcionamiento de las principales funciones.
1. Identificación emocional
- mover
- Prepara un vídeo que contenga un personaje (por ejemplo
sample.mp4
). - Ejecutar comando:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"
- El modelo emite emociones como "enfadado" o "contento".
- tenga en cuenta
- El vídeo debe ser claro y las expresiones y voces de los personajes tienen que ser reconocibles.
- Los vídeos más largos pueden requerir más tiempo de cálculo.
2. Descripción de las expresiones faciales
- mover
- Introduce el vídeo y ejecútalo:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"
- La salida puede ser "sonrisa" o "ceño fruncido" con una breve descripción.
- sugerencia
- Probar con un vídeo corto de 10-30 segundos funciona mejor.
3. Comprensión del movimiento
- mover
- Introduce el vídeo y ejecútalo:
python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."
- Emite una descripción de la acción, como "una persona está caminando".
- finura
- Asegúrese de que la acción sea obvia y evite el desorden de fondo.
4. Tratamiento de la voz
- mover
- Entrada de vídeo con audio, ejecuta:
python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"
- Contenido de voz de salida, por ejemplo: "Los perros están sentados junto a la puerta".
- tenga en cuenta
- El audio debe ser claro y funcionar mejor sin ruido.
5. Fusión multimodal
- mover
- Introducir vídeo y audio, ejecutar:
python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."
- El modelo ofrecerá una descripción completa junto con la imagen y el sonido.
- vanguardia
- Capacidad de captar la correlación entre emociones y acciones para un análisis más exhaustivo.
6. Formación sobre conjuntos de datos personalizados
- mover
- Prepare un archivo de datos en formato JSON que contenga la ruta del vídeo y el diálogo de comandos. Por ejemplo
[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]
- descargando
HumanOmni-7B-Video
responder cantandoHumanOmni-7B-Audio
Pesos. - Ejecute el script de formación:
bash scripts/train/finetune_humanomni.sh
- utilice
- Es posible optimizar el modelo con sus propios datos de vídeo.
Preguntas frecuentes
- Error de tiempo de ejecuciónComprobar que las versiones de Python y PyTorch coinciden.
- Fallo de carga del modeloConfirme que la ruta es correcta y que hay suficiente espacio en disco (unos 10 GB para el modelo).
- Los resultados no son exactos.: Cambia a vídeo claro o ajusta la presentación de las instrucciones.
Con estos pasos, los usuarios pueden instalar y utilizar fácilmente HumanOmni y experimentar sus potentes funciones.
escenario de aplicación
- Investigación educativa
Analice los vídeos de clase para identificar el estado de ánimo y el compromiso de los alumnos y ayudar a los profesores a ajustar su estilo de enseñanza. - asistencia médica
La expresión y el tono de voz del paciente ayudan al médico a determinar estados psicológicos, como ansiedad o depresión. - producción de cine y televisión
Analice las emociones y acciones de los personajes para generar subtítulos o descripciones de la trama que mejoren la eficacia creativa. - análisis social
Se utiliza en las videoconferencias para comprender las emociones y el comportamiento de los participantes y optimizar la comunicación.
CONTROL DE CALIDAD
- ¿Qué formatos de archivo son compatibles?
Admite el formato MP4, el audio debe estar incrustado en el vídeo. - ¿Necesito trabajar en red?
No es necesario. Descargue el código y el modelo para utilizarlos sin conexión. - ¿Cómo funciona el modelo?
En cuanto a la comprensión emocional, la UAR de los datos DFEW de HumanOmni ascendió a 74,861 TP3T, superando con creces los 50,571 TP3T de GPT4-O. La puntuación media de la comprensión de acciones fue de 72,6, superior a los 67,7 de Qwen2-VL-7B. - ¿Puede utilizarlo la gente corriente?
Se requieren conocimientos básicos de programación. Si no sabes programar, se recomienda pedir ayuda a un técnico.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...