MMAudio : génération d'effets sonores synchronisés et de bandes sonores pour des séquences vidéo, outil de coformation multimodale vidéo/audio

Dernières ressources sur l'IAMise à jour il y a 9 mois Cercle de partage de l'IA

13.8K 00

Introduction générale

MMAudio est un projet open-source qui vise à générer un son synchronisé de haute qualité par le biais d'une formation multimodale conjointe. Développé par Ho Kei Cheng et al. à l'Université chinoise de Hong Kong, la fonction principale du projet est de générer de l'audio synchronisé basé sur des entrées vidéo et/ou texte. L'innovation principale de MMAudio réside dans son approche d'entraînement multimodal conjoint, qui est capable de s'entraîner sur une large gamme d'ensembles de données audio-vidéo et audio-texte. En outre, le module de synchronisation peut aligner le son généré sur les images vidéo. Le projet est encore en cours de construction, mais la fonctionnalité d'inférence de cas unique fonctionne déjà et le code d'entraînement sera ajouté. Le site openart peut être consulté pour des flux de travail connexes.

Liste des fonctions

Génération de vidéo vers audioGénère un son synchronisé sur la base de la vidéo entrante.
Génération de texte audioGénérer du son à partir d'un texte d'entrée.
Formation multimodale conjointe: Formation conjointe sur des ensembles de données audio-vidéo et audio-texte.
module de synchronisationAlignement de l'audio généré sur l'image vidéo.
source ouverteLe code source est entièrement ouvert afin de faciliter le développement secondaire par les utilisateurs.
Modèle de pré-entraînementLes modèles pré-entraînés : Un large éventail de modèles pré-entraînés est fourni, qui peut être utilisé directement par l'utilisateur.
Script de démonstrationLes utilisateurs peuvent ainsi s'initier rapidement à l'utilisation de l'outil.

Utiliser l'aide

Processus d'installation

Préparation de l'environnementL'environnement miniforge est recommandé. Assurez-vous d'installer Python 3.9+ et PyTorch 2.5.1+ ainsi que les torchvision/torchaudio correspondants.
Installation des dépendancesPour installer les dépendances nécessaires, exécutez la commande suivante :

   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

entrepôt de clonesCloner le dépôt MMAudio à l'aide de la commande suivante :

   git clone https://github.com/hkchengrex/MMAudio.git

Installation de MMAudioPour cela, il faut se rendre dans le répertoire de MMAudio et lancer la commande install :

   cd MMAudio
pip install -e .

Utilisation

Exécuter le script de démonstrationMMAudio fournit plusieurs scripts de démonstration qui permettent aux utilisateurs d'exécuter le modèle par défaut large_44k à l'aide des commandes suivantes :

   python demo.py

Saisie d'une vidéo ou d'un texteMMAudio génère l'audio synchronisé correspondant à un fichier vidéo ou un texte.
Voir les résultatsLe son généré sera synchronisé avec les images vidéo d'entrée et pourra être visualisé et utilisé directement par l'utilisateur.

Fonction détaillée du déroulement des opérations

Génération de vidéo vers audioMMAudio génère automatiquement de l'audio synchronisé avec la vidéo, en utilisant le fichier vidéo comme entrée et en exécutant le script de démonstration.
Génération de texte audioMMAudio : prend le texte en entrée, exécute le script correspondant, et MMAudio génère le son correspondant.
Formation multimodale conjointeLes utilisateurs peuvent effectuer un co-entraînement multimodal sur leurs propres ensembles de données en se basant sur le code d'entraînement fourni afin d'améliorer la génération de modèles.
module de synchronisationLe module aligne automatiquement le son généré sur la trame vidéo afin d'assurer la synchronisation audio et vidéo.

mise en garde

Exigences environnementales: Actuellement testé uniquement sur les systèmes Ubuntu, d'autres systèmes peuvent nécessiter une configuration supplémentaire.
version de la dépendanceLes versions des dépendances installées doivent correspondre aux exigences du projet afin d'éviter les problèmes de compatibilité.
Modèle de pré-entraînementLes modèles pré-entraînés seront téléchargés automatiquement lors de l'exécution du script de démonstration, ou les utilisateurs peuvent les télécharger manuellement et les placer dans un répertoire spécifié.

Grâce à ces étapes, les utilisateurs peuvent rapidement installer et utiliser MMAudio pour générer un son synchronisé de haute qualité. Une aide à l'utilisation détaillée et des scripts de démonstration aideront les utilisateurs à mieux comprendre et utiliser l'outil.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

ComfyUI-Copilot : un assistant IA pour la génération de descriptions de texte ComfyUI workflows

Dernières ressources sur l'IA # AI Aides à la génération d'images # AI Java Open Source Projecct # ComfyUI

Il y a 6 mois

013.4K

ACI.DEV : Intégration de plus de 600 outils pour l'intelligence artificielle via le serveur MCP

Dernières ressources sur l'IA # AI Java Open Source Projecct # Services MCP

Il y a 4 mois

011.5K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Outlines : générer un texte structuré via des expressions régulières, JSON ou des modèles pydantiques

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

Il y a 7 mois

016K

M. ZJU - ZJU lance une plateforme d'intelligence corporelle avec l'intégration profonde de DeepSeek

Dernières ressources sur l'IA

Il y a 3 mois

010.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

MMAudio : génération d'effets sonores synchronisés et de bandes sonores pour des séquences vidéo, outil de coformation multimodale vidéo/audio

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation

Fonction détaillée du déroulement des opérations

mise en garde

H2O GPT : Configuration flexible d'outils de dialogue et de traitement de documents natifs de l'IA

Leffa : Ajustement virtuel de modèle haute fidélité et ajustement de la pose du personnage, modèle de génération d'image de personnage contrôlable Meta open source

Articles connexes

ComfyUI-Copilot : un assistant IA pour la génération de descriptions de texte ComfyUI workflows

ACI.DEV : Intégration de plus de 600 outils pour l'intelligence artificielle via le serveur MCP

Outlines : générer un texte structuré via des expressions régulières, JSON ou des modèles pydantiques

M. ZJU - ZJU lance une plateforme d'intelligence corporelle avec l'intégration profonde de DeepSeek

Pas de commentaires

Dernières collections

Derniers articles

MMAudio : génération d'effets sonores synchronisés et de bandes sonores pour des séquences vidéo, outil de coformation multimodale vidéo/audio

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation

Fonction détaillée du déroulement des opérations

mise en garde

H2O GPT : Configuration flexible d'outils de dialogue et de traitement de documents natifs de l'IA

Leffa : Ajustement virtuel de modèle haute fidélité et ajustement de la pose du personnage, modèle de génération d'image de personnage contrôlable Meta open source

Articles connexes

ComfyUI-Copilot : un assistant IA pour la génération de descriptions de texte ComfyUI workflows

ACI.DEV : Intégration de plus de 600 outils pour l'intelligence artificielle via le serveur MCP

Outlines : générer un texte structuré via des expressions régulières, JSON ou des modèles pydantiques

M. ZJU - ZJU lance une plateforme d'intelligence corporelle avec l'intégration profonde de DeepSeek

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles