ThinkSound - Modélisation de la génération audio par Ali Tongyi

Dernières ressources sur l'IAPosté il y a 3 mois Cercle de partage de l'IA

16.8K 00

Qu'est-ce que ThinkSound ?

ThinkSound est le premier modèle de génération audio CoT (Chain Thinking) introduit par l'équipe d'Ali Tongyi. Le modèle peut générer des effets sonores correspondant précisément à des images vidéo, sur la base de l'introduction du raisonnement CoT, afin de résoudre le problème de la technologie traditionnelle qui a du mal à capturer les détails dynamiques et les relations spatiales de l'image. Le modèle est basé sur une chaîne de pensée de troisième ordre qui conduit la génération audio, y compris l'inférence sonore de base, l'interaction au niveau de l'objet et l'édition de commandes. Le modèle est équipé de l'ensemble de données AudioCoT, qui contient des données audio annotées avec la chaîne de pensée, et a d'excellentes performances sur l'ensemble de données VGGSound.ThinkSound est pris en charge dans la production cinématographique et télévisuelle, le développement de jeux, la publicité et le marketing, ainsi que la réalité virtuelle (VR) et la réalité augmentée (AR) pour améliorer le réalisme et l'immersion de la synchronisation audio-vidéo.

Principales caractéristiques de ThinkSound

Génération de sons de baseLes effets sonores : sur la base du contenu de la vidéo, générer des effets sonores de base qui correspondent à la sémantique et à la synchronisation de l'écran afin de fournir un fond sonore approprié pour la vidéo, de sorte que la vidéo ne soit plus monotone et silencieuse.
Raffinement interactif au niveau de l'objetL'utilisateur clique sur un objet spécifique de la vidéo pour affiner et optimiser l'effet sonore de l'objet en question, de sorte que l'effet sonore s'adapte plus précisément à l'élément visuel spécifique et améliore la coordination du son et de l'image.
Edition audio pilotée par commandeIl permet aux utilisateurs d'éditer le son généré à l'aide de commandes en langage naturel, telles que l'ajout, la suppression ou la modification d'effets sonores spécifiques, afin de répondre à différents besoins créatifs et de rendre la génération audio plus flexible et diversifiée.

Adresse du site web officiel de ThinkSound

Site web du projet: : https://thinksound-project.github.io/
Dépôt GitHub: : https://github.com/liuhuadai/ThinkSound
Bibliothèque de modèles HuggingFace: : https://huggingface.co/liuhuadai/ThinkSound
Document technique arXiv: : https://arxiv.org/pdf/2506.21448

Comment utiliser ThinkSound

Préparation de l'environnement: :
- Installation de PythonPour ce faire, vous devez vous assurer que Python est installé sur votre système (Python 3.8 et plus est recommandé).
- Installation des bibliothèques dépendantesInstallation des bibliothèques de dépendances requises pour ThinkSound : Installez les bibliothèques de dépendances requises pour ThinkSound à l'aide de la commande suivante :

pip install -r requirements.txt

- - Le fichier de dépendance spécifique requirements.txt se trouve dans le dépôt GitHub.
Télécharger les modèles: :
- Téléchargement du dépôt GitHubPour cela, il faut : visiter le dépôt GitHub de ThinkSound (https://github.com/liuhuadai/ThinkSound) pour cloner le dépôt localement :

git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound

- Hugging Face TéléchargerTélécharger le moule directement à partir de la bibliothèque de modèles Hugging Face (https://huggingface.co/liuhuadai/ThinkSound).
Préparation des données: :
- Préparation du fichier vidéoThinkSound génère le son à partir de cette vidéo.
- Préparation du fichier de commandeSi des instructions en langage naturel sont nécessaires pour éditer l'audio, préparez un fichier texte contenant les instructions.
- modèle opérationnel: :
  - Génération de sons de baseLe son de base : Exécutez la commande suivante pour générer le son de base :

python generate.py --video_path <path_to_your_video> --output_path <path_to_output_audio>

- - Raffinement interactif au niveau de l'objetSi vous avez besoin d'affiner les effets sonores pour un objet spécifique, vous pouvez le faire en modifiant les paramètres pertinents dans le code ou en utilisant l'interface interactive (si elle est prise en charge).
  - Edition audio pilotée par commandeLes commandes suivantes permettent d'éditer l'audio avec des commandes en langage naturel :

python edit.py --audio_path <path_to_generated_audio> --instruction_file <path_to_instruction_file> --output_path <path_to_edited_audio>

Voir les résultats: :
- Vérification de l'audio généréDans le chemin de sortie spécifié, trouver le fichier audio généré, le lire et le vérifier à l'aide du lecteur audio.
- Paramètres de réglageEn fonction de l'effet audio généré, ajustez les paramètres du modèle ou les commandes d'entrée afin d'obtenir un effet audio plus satisfaisant.

Les principaux avantages de ThinkSound

Raisonnement en chaîne (CoT)Le son est basé sur un raisonnement en plusieurs étapes qui imite le processus créatif des ingénieurs du son humains, capturant avec précision les détails dynamiques et les relations spatiales de l'écran, générant un son hautement adapté et améliorant le réalisme de la synchronisation du son et de l'image.
Modélisation multimodale du langage étendu (MLLM)Les objectifs de ce projet sont les suivants : extraire les informations spatio-temporelles et le contenu sémantique des vidéos sur la base de modèles tels que VideoLLaMA2, générer des chaînes d'inférence structurées pour la production d'un son sémantiquement adapté et améliorer la coordination entre l'image et le son.
Modèle de base de l'audio unifiéLa technologie d'adaptation du flux conditionnel, combinée à des informations contextuelles multimodales, permet de générer un son de haute fidélité et de prendre en charge des combinaisons modales d'entrée flexibles pour répondre à des besoins de génération et d'édition diversifiés.
Raffinement interactif au niveau de l'objetLes effets sonores sont optimisés pour les utilisateurs qui cliquent sur des objets spécifiques dans la vidéo, de sorte que les effets sonores correspondent précisément aux éléments visuels, améliorant ainsi la coordination et le réalisme du son et de l'image, et que le fonctionnement est intuitif et pratique.
Edition audio pilotée par commandeLe logiciel d'édition de son : prend en charge les commandes en langage naturel pour l'édition audio, telles que l'ajout, la suppression ou la modification d'effets sonores spécifiques, ce qui permet une génération audio hautement personnalisée pour répondre aux différents besoins créatifs et améliorer la liberté de création.
Prise en charge d'ensembles de données puissantsLe système est équipé d'un ensemble de données AudioCoT avec des annotations CoT structurées, utilisées pour former des modèles d'optimisation afin d'améliorer la compréhension et la génération de relations audiovisuelles et d'assurer la qualité de la génération audio.

À qui s'adresse ThinkSound ?

producteur de films: Les équipes de production de films et de séries télévisées et les créateurs de vidéos courtes peuvent générer rapidement des effets sonores d'arrière-plan réalistes et des effets sonores spécifiques à une scène afin d'améliorer l'immersion du public et l'attrait du contenu.
développeur de jeuxLa société génère des effets sonores dynamiques ambiants et interactifs qui améliorent l'immersion et l'interactivité des joueurs, tout en réduisant les coûts et le temps de production des sons.
Personnel chargé de la publicité et du marketingLes effets sonores : Les agences de publicité et les créateurs de contenu pour les médias sociaux génèrent des effets sonores et des bandes sonores attrayants pour les vidéos publicitaires et les vidéos pour les médias sociaux afin d'améliorer l'attrait du contenu et l'engagement de l'utilisateur.
Personnel d'éducation et de formationLes plateformes d'enseignement en ligne et les formateurs en entreprise qui génèrent des effets sonores pour les vidéos éducatives et les environnements de formation simulés qui correspondent au contenu, aidant ainsi les étudiants à mieux comprendre et mémoriser, et améliorant l'efficacité de la formation.
Développeurs de réalité virtuelle (VR) et de réalité augmentée (AR)La technologie VR/AR permet aux développeurs d'applications VR/AR et aux concepteurs d'expériences de générer des effets sonores hautement adaptés dans les environnements virtuels, améliorant ainsi l'immersion et l'interactivité de l'utilisateur et offrant des expériences personnalisées.