MMAudio : génération d'effets sonores synchronisés et de bandes sonores pour des séquences vidéo, outil de coformation multimodale vidéo/audio
Introduction générale
MMAudio est un projet open-source qui vise à générer un son synchronisé de haute qualité par le biais d'une formation multimodale conjointe. Développé par Ho Kei Cheng et al. à l'Université chinoise de Hong Kong, la fonction principale du projet est de générer de l'audio synchronisé basé sur des entrées vidéo et/ou texte. L'innovation principale de MMAudio réside dans son approche d'entraînement multimodal conjoint, qui est capable de s'entraîner sur une large gamme d'ensembles de données audio-vidéo et audio-texte. En outre, le module de synchronisation peut aligner le son généré sur les images vidéo. Le projet est encore en cours de construction, mais la fonctionnalité d'inférence de cas unique fonctionne déjà et le code d'entraînement sera ajouté. Le site openart peut être consulté pour des flux de travail connexes.

Liste des fonctions
- Génération de vidéo vers audioGénère un son synchronisé sur la base de la vidéo entrante.
- Génération de texte audioGénérer du son à partir d'un texte d'entrée.
- Formation multimodale conjointe: Formation conjointe sur des ensembles de données audio-vidéo et audio-texte.
- module de synchronisationAlignement de l'audio généré sur l'image vidéo.
- source ouverteLe code source est entièrement ouvert afin de faciliter le développement secondaire par les utilisateurs.
- Modèle de pré-entraînementLes modèles pré-entraînés : Un large éventail de modèles pré-entraînés est fourni, qui peut être utilisé directement par l'utilisateur.
- Script de démonstrationLes utilisateurs peuvent ainsi s'initier rapidement à l'utilisation de l'outil.
Utiliser l'aide
Processus d'installation
- Préparation de l'environnementL'environnement miniforge est recommandé. Assurez-vous d'installer Python 3.9+ et PyTorch 2.5.1+ ainsi que les torchvision/torchaudio correspondants.
- Installation des dépendancesPour installer les dépendances nécessaires, exécutez la commande suivante :
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
- entrepôt de clonesCloner le dépôt MMAudio à l'aide de la commande suivante :
git clone https://github.com/hkchengrex/MMAudio.git
- Installation de MMAudioPour cela, il faut se rendre dans le répertoire de MMAudio et lancer la commande install :
cd MMAudio
pip install -e .
Utilisation
- Exécuter le script de démonstrationMMAudio fournit plusieurs scripts de démonstration qui permettent aux utilisateurs d'exécuter le modèle par défaut large_44k à l'aide des commandes suivantes :
python demo.py
- Saisie d'une vidéo ou d'un texteMMAudio génère l'audio synchronisé correspondant à un fichier vidéo ou un texte.
- Voir les résultatsLe son généré sera synchronisé avec les images vidéo d'entrée et pourra être visualisé et utilisé directement par l'utilisateur.
Fonction détaillée du déroulement des opérations
- Génération de vidéo vers audioMMAudio génère automatiquement de l'audio synchronisé avec la vidéo, en utilisant le fichier vidéo comme entrée et en exécutant le script de démonstration.
- Génération de texte audioMMAudio : prend le texte en entrée, exécute le script correspondant, et MMAudio génère le son correspondant.
- Formation multimodale conjointeLes utilisateurs peuvent effectuer un co-entraînement multimodal sur leurs propres ensembles de données en se basant sur le code d'entraînement fourni afin d'améliorer la génération de modèles.
- module de synchronisationLe module aligne automatiquement le son généré sur la trame vidéo afin d'assurer la synchronisation audio et vidéo.
mise en garde
- Exigences environnementales: Actuellement testé uniquement sur les systèmes Ubuntu, d'autres systèmes peuvent nécessiter une configuration supplémentaire.
- version de la dépendanceLes versions des dépendances installées doivent correspondre aux exigences du projet afin d'éviter les problèmes de compatibilité.
- Modèle de pré-entraînementLes modèles pré-entraînés seront téléchargés automatiquement lors de l'exécution du script de démonstration, ou les utilisateurs peuvent les télécharger manuellement et les placer dans un répertoire spécifié.
Grâce à ces étapes, les utilisateurs peuvent rapidement installer et utiliser MMAudio pour générer un son synchronisé de haute qualité. Une aide à l'utilisation détaillée et des scripts de démonstration aideront les utilisateurs à mieux comprendre et utiliser l'outil.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...