Allgemeine Einführung
MMAudio ist ein Open-Source-Projekt, das darauf abzielt, durch gemeinsames multimodales Training hochwertiges synchronisiertes Audio zu erzeugen. Die Hauptfunktion des von Ho Kei Cheng et al. an der Chinese University of Hong Kong entwickelten Projekts besteht darin, synchronisierte Audiodaten auf der Grundlage von Video- und/oder Texteingaben zu generieren. Die Kerninnovation von MMAudio liegt in seinem multimodalen gemeinsamen Trainingsansatz, der in der Lage ist, auf einer Vielzahl von Audio-Video- und Audio-Text-Datensätzen zu trainieren. Darüber hinaus kann das Synchronisationsmodul das generierte Audio mit den Videobildern abgleichen. Das Projekt befindet sich noch im Aufbau, aber die Einzelfall-Inferenzfunktionalität funktioniert bereits und Trainingscode wird hinzugefügt. Die openart-Website kann nach verwandten Workflows durchsucht werden.
Funktionsliste
- Video-zu-Audio-GenerierungErzeugt synchronisierten Ton auf der Grundlage des eingehenden Videos.
- Text-zu-Audio-GenerierungErzeugen von Audio auf der Grundlage des eingegebenen Textes.
- Gemeinsame multimodale AusbildungGemeinsames Training auf Audio-Video- und Audio-Text-Datensätzen.
- SynchronisationsmodulRichtet das erzeugte Audio am Videobild aus.
- offene QuelleVollständig offener Quellcode wird zur Verfügung gestellt, um die Weiterentwicklung durch die Benutzer zu erleichtern.
- Pre-Training ModellEine breite Palette von vortrainierten Modellen steht zur Verfügung, die vom Benutzer direkt verwendet werden können.
- Demo-SkriptBereitstellung einer Vielzahl von Demo-Skripten, die den Benutzern einen schnellen Einstieg ermöglichen.
Hilfe verwenden
Ablauf der Installation
- Vorbereitung der UmweltDie Miniforge-Umgebung wird empfohlen. Stellen Sie sicher, dass Sie Python 3.9+ und PyTorch 2.5.1+ und die entsprechenden torchvision/torchaudio installieren.
- Installation von Abhängigkeiten: Führen Sie den folgenden Befehl aus, um die erforderlichen Abhängigkeiten zu installieren:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
- Klon-LagerKlonen Sie das MMAudio-Repository mit folgendem Befehl:
git clone https://github.com/hkchengrex/MMAudio.git
- Installation von MMAudioWechseln Sie in das MMAudio-Verzeichnis und führen Sie den Installationsbefehl aus:
cd MMAudio
pip install -e .
Verwendung
- Führen Sie das Demoskript ausMMAudio stellt mehrere Demo-Skripte zur Verfügung, die es dem Benutzer ermöglichen, das Standardmodell large_44k mit den folgenden Befehlen auszuführen:
python demo.py
- Eingabe von Video oder TextGeben Sie eine Videodatei oder einen Text ein, und MMAudio erzeugt den entsprechenden synchronisierten Ton.
- Ergebnisse anzeigenDer erzeugte Ton wird mit den eingegebenen Videobildern synchronisiert und kann vom Benutzer direkt angesehen und verwendet werden.
Detaillierte Funktionsabläufe
- Video-zu-Audio-GenerierungVerwenden Sie die Videodatei als Eingabe, führen Sie das Demoskript aus und MMAudio erzeugt automatisch einen mit dem Video synchronisierten Ton.
- Text-zu-Audio-GenerierungMMAudio: Nehmen Sie den Text als Eingabe, führen Sie das entsprechende Skript aus, und MMAudio erzeugt den entsprechenden Ton.
- Gemeinsame multimodale AusbildungBenutzer können multimodales Co-Training an ihren eigenen Datensätzen auf der Grundlage des bereitgestellten Trainingscodes durchführen, um die Modellerstellung zu verbessern.
- SynchronisationsmodulDas Modul richtet das erzeugte Audio automatisch am Videobild aus, um die Synchronisation von Audio und Video zu gewährleisten.
caveat
- Anforderungen an die UmweltDerzeit nur auf Ubuntu-Systemen getestet, andere Systeme können zusätzliche Konfiguration erfordern.
- abhängige VersionStellen Sie sicher, dass die installierten Versionen der Abhängigkeiten mit den Projektanforderungen übereinstimmen, um Kompatibilitätsprobleme zu vermeiden.
- Pre-Training ModellVorgefertigte Modelle werden automatisch heruntergeladen, wenn das Demoskript ausgeführt wird, oder der Benutzer kann sie manuell herunterladen und in einem bestimmten Verzeichnis ablegen.
Mit diesen Schritten können Benutzer MMAudio schnell installieren und verwenden, um qualitativ hochwertiges synchronisiertes Audio zu erzeugen. Eine ausführliche Hilfe und Demoskripte helfen dem Benutzer, das Tool besser zu verstehen und zu bedienen.