ThinkSound - Modelado de generación de audio de Ali Tongyi

Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial

40.4K 00

¿Qué es ThinkSound?

ThinkSound es el primer modelo de generación de audio CoT (Chain Thinking) introducido por el equipo de discurso de Ali Tongyi. El modelo puede generar efectos de sonido adaptados con precisión a imágenes de vídeo, basándose en la introducción del razonamiento CoT, para resolver el problema de que la tecnología tradicional es difícil de captar los detalles dinámicos y las relaciones espaciales de la imagen. El modelo se basa en una cadena de pensamiento de tercer orden que impulsa la generación de audio, incluyendo la inferencia básica de sonido, la interacción a nivel de objeto y la edición de comandos. El modelo está equipado con el conjunto de datos AudioCoT, que contiene datos de audio anotados con la cadena de pensamiento, y tiene un excelente rendimiento en el conjunto de datos VGGSound.ThinkSound es compatible con la producción de cine y televisión, el desarrollo de juegos, la publicidad y el marketing, y la realidad virtual (VR) y la realidad aumentada (AR) para mejorar el realismo y la inmersión de la sincronización de audio y vídeo.

Principales características de ThinkSound

Generación básica de sonidoA partir del contenido del vídeo, genera efectos de sonido básicos que coincidan con la semántica y el ritmo de la pantalla para proporcionar un fondo de audio adecuado al vídeo, de modo que éste deje de ser monótono y silencioso.
Perfeccionamiento interactivo a nivel de objetoEl usuario hace clic en un objeto concreto del vídeo para perfeccionar y optimizar el efecto sonoro de dicho objeto, de modo que el efecto sonoro se adapte mejor al elemento visual concreto y mejore la coordinación entre sonido e imagen.
Edición de audio por comandosPermite a los usuarios editar el audio generado con comandos de lenguaje natural, como añadir, eliminar o modificar efectos de sonido específicos, para satisfacer diferentes necesidades creativas y hacer que la generación de audio sea más flexible y diversificada.

Dirección del sitio web oficial de ThinkSound

Página web del proyecto:: https://thinksound-project.github.io/
Repositorio GitHub:: https://github.com/liuhuadai/ThinkSound
Biblioteca de modelos HuggingFace:: https://huggingface.co/liuhuadai/ThinkSound
Documento técnico arXiv:: https://arxiv.org/pdf/2506.21448

Cómo utilizar ThinkSound

Preparación medioambiental::
- Instalación de PythonAsegúrese de que Python está instalado en su sistema (se recomienda Python 3.8 o superior).
- Instalación de bibliotecas dependientesInstale las bibliotecas de dependencias necesarias para ThinkSound mediante el siguiente comando:

pip install -r requirements.txt

- - El archivo específico de dependencias requirements.txt se encuentra en el repositorio de GitHub.
Descargar modelos::
- Descarga del repositorio de GitHubVisita el repositorio GitHub de ThinkSound (https://github.com/liuhuadai/ThinkSound) para clonar el repositorio localmente:

git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound

- Cara de abrazo DescargarDescargue el molde directamente de la biblioteca de modelos Hugging Face (https://huggingface.co/liuhuadai/ThinkSound).
Preparación de datos::
- Preparación del archivo de vídeoAsegúrese de que hay un archivo de vídeo, ThinkSound generará audio basado en ese vídeo.
- Preparación del archivo de comandosSi necesita instrucciones en lenguaje natural para editar el audio, prepare un archivo de texto con las instrucciones.
- modelo operativo::
  - Generación básica de sonidoEjecuta el siguiente comando para generar el sonido base:

python generate.py --video_path <path_to_your_video> --output_path <path_to_output_audio>

- - Perfeccionamiento interactivo a nivel de objetoSi necesitas refinar los efectos de sonido para un objeto específico, puedes hacerlo modificando los parámetros relevantes en el código o utilizando la interfaz interactiva (si es compatible).
  - Edición de audio por comandos: Edita el audio con comandos de lenguaje natural, basados en los siguientes comandos:

python edit.py --audio_path <path_to_generated_audio> --instruction_file <path_to_instruction_file> --output_path <path_to_edited_audio>

Ver resultados::
- Comprobación del audio generado: En la ruta de salida especificada, busque el archivo de audio generado, reprodúzcalo y compruébelo según el reproductor de audio.
- Parámetros de ajusteSegún el efecto de audio generado, ajuste los parámetros del modelo o los comandos de entrada para obtener un efecto de audio más satisfactorio.

Principales ventajas de ThinkSound

Razonamiento de pensamiento encadenado (CoT)El audio se basa en un razonamiento de varios pasos que imita el proceso creativo de los ingenieros de sonido humanos, captando con precisión los detalles dinámicos y las relaciones espaciales de la pantalla, generando un audio de alta correspondencia y realzando el realismo del sonido y la imagen sincronizados.
Modelización multimodal de grandes lenguajes (MLLM)Extracción de información espacio-temporal de vídeo y contenido semántico basado en modelos como VideoLLaMA2, generación de cadenas de inferencia estructuradas para la generación de audio con correspondencia semántica y mejora de la coordinación audio-imagen.
Modelo básico de audio unificado: Basado en la tecnología de correspondencia de flujo condicional combinada con información de contexto multimodal para generar audio de alta fidelidad, admite combinaciones modales de entrada flexibles para satisfacer necesidades de generación y edición diversificadas.
Perfeccionamiento interactivo a nivel de objetoLos efectos de sonido se optimizan para que los usuarios hagan clic en objetos específicos del vídeo, de modo que los efectos de sonido coincidan exactamente con los elementos visuales, mejorando la coordinación y el realismo del sonido y la imagen, y el funcionamiento es intuitivo y cómodo.
Edición de audio por comandos: Admite comandos de lenguaje natural para la edición de audio, como añadir, eliminar o modificar efectos de sonido específicos, lo que permite una generación de audio altamente personalizada para satisfacer diferentes necesidades creativas y aumentar la libertad creativa.
Potente soporte de conjuntos de datos: Equipado con el conjunto de datos AudioCoT con anotaciones CoT estructuradas, utilizado en el entrenamiento de modelos de optimización para mejorar la comprensión y la generación de relaciones audiovisuales y garantizar la calidad de la generación de audio.

A quién va dirigido ThinkSound

productor de cine: Los equipos de producción de películas y series de televisión y los creadores de vídeos cortos pueden generar rápidamente efectos de sonido de fondo realistas y efectos de sonido específicos de cada escena para mejorar la inmersión del público y el atractivo del contenido.
desarrollador de juegosLa empresa genera efectos de sonido dinámicos, ambientales e interactivos que mejoran la inmersión y la interactividad del jugador, ahorrando costes y tiempo de producción de sonido.
Personal de publicidad y marketing: Agencias de publicidad y creadores de contenidos para redes sociales para generar efectos de sonido y bandas sonoras atractivos para vídeos publicitarios y vídeos de redes sociales con el fin de mejorar el atractivo de los contenidos y la participación de los usuarios.
Personal de educación y formación: Plataformas de educación en línea y formadores corporativos, generando efectos de sonido adaptados al contenido para vídeos educativos y entornos de formación simulados, ayudando a los estudiantes a comprender y recordar mejor, y mejorando la eficacia de la formación.
Desarrolladores de Realidad Virtual (RV) y Realidad Aumentada (RA): los desarrolladores de aplicaciones de RV/RA y los diseñadores de experiencias pueden generar efectos sonoros muy ajustados en entornos virtuales, lo que mejora la inmersión y la interactividad del usuario y proporciona experiencias personalizadas.