HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

35.6K 00

Introducción general

HumanOmni es un gran modelo multimodal de código abierto desarrollado por el equipo HumanMLLM y alojado en GitHub. Se centra en el análisis de vídeo humano y puede procesar tanto imágenes como sonidos para ayudar a comprender emociones, acciones y contenido conversacional. El proyecto utilizó 2,4 millones de clips de vídeo centrados en humanos y 14 millones de datos de instrucciones para el preentrenamiento, y 50.000 clips de vídeo etiquetados a mano con más de 100.000 instrucciones para el ajuste fino. humanOmni gestiona escenas faciales, corporales y de interacción en tres ramas, y adapta dinámicamente su enfoque de fusión en función de las entradas. Es el primer modelo multimodal centrado en el ser humano y supera a muchos modelos similares. El equipo también ha lanzado R1-Omni, basado en él, que incorpora por primera vez el aprendizaje por refuerzo para mejorar la inferencia. El código y algunos de los conjuntos de datos están abiertos para facilitar el acceso de investigadores y desarrolladores.

Lista de funciones

reconocimiento de emociones: Analiza las expresiones faciales y los tonos de voz de los vídeos para determinar las emociones de los personajes, como la alegría, el enfado o la tristeza.
Descripción de las expresiones faciales: Reconocer y describir detalles faciales de una persona, como una sonrisa o un ceño fruncido.
Acción ComprensiónAnaliza los movimientos de las personas en un vídeo y describe lo que están haciendo, como caminar o saludar.
procesamiento del habla: Extraiga contenido de audio con ayuda del reconocimiento de voz y el análisis de entonación.
fusión multimodal: Combina imagen y sonido para comprender escenas complejas y ofrecer análisis más precisos.
Ajuste dinámico de ramas: Maneja diferentes escenas con tres ramas: cara, cuerpo e interacción, ajustando automáticamente los pesos.
Soporte de código abiertoCódigo :: Proporcionar código, modelos preentrenados y conjuntos de datos parciales para apoyar el desarrollo secundario.

Utilizar la ayuda

HumanOmni es adecuado para usuarios con una base técnica, como desarrolladores o investigadores. Los siguientes pasos de instalación y uso son lo suficientemente detallados como para empezar de inmediato.

Proceso de instalación

Para ejecutar HumanOmni, primero debe preparar su entorno. Los siguientes son los pasos específicos:

Compruebe los requisitos de hardware y software
- Sistema operativo: Compatible con Linux, Windows o macOS.
- Python: requiere la versión 3.10 o superior.
- Se recomienda CUDA: 12.1 o superior (si se utiliza una GPU).
- PyTorch: Requiere la versión 2.2 o superior con soporte CUDA.
- Hardware: Se recomiendan las GPUs NVIDIA, las CPUs funcionan pero son lentas.
Descargar código
Abra un terminal e introduzca el comando para descargar el proyecto:

git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni

Creación de un entorno virtual
Crea entornos separados con Conda para evitar conflictos:

conda create -n humanOmni python=3.10 -y
conda activate humanOmni

Instalación de dependencias
El proyecto cuenta con un requirements.txt que enumera las bibliotecas necesarias. Ejecute el siguiente comando para instalarlas:

pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Descargar modelos de pesos
HumanOmni tiene tres modelos:

HumanOmni-Video: Procesamiento de vídeo, 7B Parámetros.
HumanOmni-Audio: Procesamiento de Audio, 7B Parámetros.
HumanOmni-Omnifusión de vídeo y audio, parámetros 7B (denominado HumanOmni).
Descárgalo desde Hugging Face o ModelScope, por ejemplo:
HumanOmni-7B
HumanOmni-7B-Vídeo
Descárgalo y colócalo en la carpeta del proyecto.

Verificar la instalación
Compruebe el entorno con el comando de prueba:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

Si aparece la descripción del vídeo, la instalación se ha realizado correctamente.

Función Flujo de operaciones

El núcleo de HumanOmni es el análisis de vídeo y audio. A continuación se detalla el funcionamiento de las principales funciones.

1. Identificación emocional

mover
Prepara un vídeo que contenga un personaje (por ejemplo sample.mp4).
Ejecutar comando:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"

El modelo emite emociones como "enfadado" o "contento".
tenga en cuenta
El vídeo debe ser claro y las expresiones y voces de los personajes tienen que ser reconocibles.
Los vídeos más largos pueden requerir más tiempo de cálculo.

2. Descripción de las expresiones faciales

mover
Introduce el vídeo y ejecútalo:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"

La salida puede ser "sonrisa" o "ceño fruncido" con una breve descripción.
sugerencia
Probar con un vídeo corto de 10-30 segundos funciona mejor.

3. Comprensión del movimiento

mover
Introduce el vídeo y ejecútalo:

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."

Emite una descripción de la acción, como "una persona está caminando".
finura
Asegúrese de que la acción sea obvia y evite el desorden de fondo.

4. Tratamiento de la voz

mover
Entrada de vídeo con audio, ejecuta:

python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"

Contenido de voz de salida, por ejemplo: "Los perros están sentados junto a la puerta".
tenga en cuenta
El audio debe ser claro y funcionar mejor sin ruido.

5. Fusión multimodal

mover
Introducir vídeo y audio, ejecutar:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."

El modelo ofrecerá una descripción completa junto con la imagen y el sonido.
vanguardia
Capacidad de captar la correlación entre emociones y acciones para un análisis más exhaustivo.

6. Formación sobre conjuntos de datos personalizados

mover
Prepare un archivo de datos en formato JSON que contenga la ruta del vídeo y el diálogo de comandos. Por ejemplo

[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]

descargando HumanOmni-7B-Video responder cantando HumanOmni-7B-Audio Pesos.
Ejecute el script de formación:

bash scripts/train/finetune_humanomni.sh

utilice
Es posible optimizar el modelo con sus propios datos de vídeo.

Preguntas frecuentes

Error de tiempo de ejecuciónComprobar que las versiones de Python y PyTorch coinciden.
Fallo de carga del modeloConfirme que la ruta es correcta y que hay suficiente espacio en disco (unos 10 GB para el modelo).
Los resultados no son exactos.: Cambia a vídeo claro o ajusta la presentación de las instrucciones.

Con estos pasos, los usuarios pueden instalar y utilizar fácilmente HumanOmni y experimentar sus potentes funciones.

escenario de aplicación

Investigación educativa
Analice los vídeos de clase para identificar el estado de ánimo y el compromiso de los alumnos y ayudar a los profesores a ajustar su estilo de enseñanza.
asistencia médica
La expresión y el tono de voz del paciente ayudan al médico a determinar estados psicológicos, como ansiedad o depresión.
producción de cine y televisión
Analice las emociones y acciones de los personajes para generar subtítulos o descripciones de la trama que mejoren la eficacia creativa.
análisis social
Se utiliza en las videoconferencias para comprender las emociones y el comportamiento de los participantes y optimizar la comunicación.

CONTROL DE CALIDAD

¿Qué formatos de archivo son compatibles?
Admite el formato MP4, el audio debe estar incrustado en el vídeo.
¿Necesito trabajar en red?
No es necesario. Descargue el código y el modelo para utilizarlos sin conexión.
¿Cómo funciona el modelo?
En cuanto a la comprensión emocional, la UAR de los datos DFEW de HumanOmni ascendió a 74,861 TP3T, superando con creces los 50,571 TP3T de GPT4-O. La puntuación media de la comprensión de acciones fue de 72,6, superior a los 67,7 de Qwen2-VL-7B.
¿Puede utilizarlo la gente corriente?
Se requieren conocimientos básicos de programación. Si no sabes programar, se recomienda pedir ayuda a un técnico.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 9 meses

040.1K

Ghost Hand Clips: desduplicación de vídeo|narración de drama breve|traducción de vídeo|eliminación de subtítulos

Últimos recursos sobre IA # AI editor de audio/vídeo

hace 1 año

041.7K

DisPose: generación de vídeos con control preciso de la postura humana, creación de bailarinas

Últimos recursos sobre IA # AI Imagen a Vídeo # AI Java Proyecto de código abierto

hace 1 año

035.8K

Bookaroozie: la herramienta que transforma los libros electrónicos en una experiencia de lectura interactiva con IA

Últimos recursos sobre IA # AI Herramientas educativas

hace 8 meses

034.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Función Flujo de operaciones

1. Identificación emocional

2. Descripción de las expresiones faciales

3. Comprensión del movimiento

4. Tratamiento de la voz

5. Fusión multimodal

6. Formación sobre conjuntos de datos personalizados

Preguntas frecuentes

escenario de aplicación

CONTROL DE CALIDAD

Aha: una plataforma de servicios de marketing impulsada por inteligencia artificial para internautas/darlings

PilottAI: un proyecto de código abierto para crear aplicaciones empresariales de inteligencia múltiple

Artículos relacionados

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Ghost Hand Clips: desduplicación de vídeo|narración de drama breve|traducción de vídeo|eliminación de subtítulos

DisPose: generación de vídeos con control preciso de la postura humana, creación de bailarinas

Bookaroozie: la herramienta que transforma los libros electrónicos en una experiencia de lectura interactiva con IA

Sin comentarios

Últimas colecciones

Últimos artículos

HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Función Flujo de operaciones

1. Identificación emocional

2. Descripción de las expresiones faciales

3. Comprensión del movimiento

4. Tratamiento de la voz

5. Fusión multimodal

6. Formación sobre conjuntos de datos personalizados

Preguntas frecuentes

escenario de aplicación

CONTROL DE CALIDAD

Aha: una plataforma de servicios de marketing impulsada por inteligencia artificial para internautas/darlings

PilottAI: un proyecto de código abierto para crear aplicaciones empresariales de inteligencia múltiple

Artículos relacionados

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Ghost Hand Clips: desduplicación de vídeo|narración de drama breve|traducción de vídeo|eliminación de subtítulos

DisPose: generación de vídeos con control preciso de la postura humana, creación de bailarinas

Bookaroozie: la herramienta que transforma los libros electrónicos en una experiencia de lectura interactiva con IA

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos