MMAudio: Erzeugung von synchronisierten Soundeffekten und Tonspuren für Videomaterial, multimodales Co-Trainingstool für Video und Audio

Neueste AI-RessourcenAktualisiert vor 9 Monaten AI-Austauschkreis

22.1K 00

Allgemeine Einführung

MMAudio ist ein Open-Source-Projekt, das darauf abzielt, durch gemeinsames multimodales Training hochwertiges synchronisiertes Audio zu erzeugen. Die Hauptfunktion des von Ho Kei Cheng et al. an der Chinese University of Hong Kong entwickelten Projekts besteht darin, synchronisierte Audiodaten auf der Grundlage von Video- und/oder Texteingaben zu generieren. Die Kerninnovation von MMAudio liegt in seinem multimodalen gemeinsamen Trainingsansatz, der in der Lage ist, auf einer Vielzahl von Audio-Video- und Audio-Text-Datensätzen zu trainieren. Darüber hinaus kann das Synchronisationsmodul das generierte Audio mit den Videobildern abgleichen. Das Projekt befindet sich noch im Aufbau, aber die Einzelfall-Inferenzfunktionalität funktioniert bereits und der Trainingscode wird hinzugefügt. Die openart-Website kann nach verwandten Workflows durchsucht werden.

Funktionsliste

Video-zu-Audio-GenerierungErzeugt synchronisierten Ton auf der Grundlage des eingehenden Videos.
Text-zu-Audio-GenerierungErzeugen von Audio auf der Grundlage des eingegebenen Textes.
Gemeinsame multimodale AusbildungGemeinsames Training auf Audio-Video- und Audio-Text-Datensätzen.
SynchronisationsmodulRichtet das erzeugte Audio am Videobild aus.
offene QuelleVollständig offener Quellcode wird zur Verfügung gestellt, um die Weiterentwicklung durch die Benutzer zu erleichtern.
Pre-Training ModellEine breite Palette von vortrainierten Modellen steht zur Verfügung, die vom Benutzer direkt verwendet werden können.
Demo-SkriptBereitstellung einer Vielzahl von Demo-Skripten, um den Benutzern einen schnellen Einstieg zu ermöglichen.

Hilfe verwenden

Einbauverfahren

Vorbereitung der UmweltDie Miniforge-Umgebung wird empfohlen. Stellen Sie sicher, dass Sie Python 3.9+ und PyTorch 2.5.1+ und die entsprechenden torchvision/torchaudio installieren.
Installation von Abhängigkeiten: Führen Sie den folgenden Befehl aus, um die erforderlichen Abhängigkeiten zu installieren:

   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

Klon-LagerKlonen Sie das MMAudio-Repository mit folgendem Befehl:

   git clone https://github.com/hkchengrex/MMAudio.git

Installation von MMAudioWechseln Sie in das MMAudio-Verzeichnis und führen Sie den Installationsbefehl aus:

   cd MMAudio
pip install -e .

Verwendung

Führen Sie das Demoskript ausMMAudio stellt mehrere Demo-Skripte zur Verfügung, die es dem Benutzer ermöglichen, das Standardmodell large_44k mit den folgenden Befehlen auszuführen:

   python demo.py

Eingabe von Video oder TextGeben Sie eine Videodatei oder einen Text ein, und MMAudio erzeugt den entsprechenden synchronisierten Ton.
Ergebnisse anzeigenDer erzeugte Ton wird mit den eingegebenen Videobildern synchronisiert und kann vom Benutzer direkt angesehen und verwendet werden.

Detaillierte Funktionsabläufe

Video-zu-Audio-GenerierungVerwenden Sie die Videodatei als Eingabe, führen Sie das Demoskript aus und MMAudio erzeugt automatisch einen mit dem Video synchronisierten Ton.
Text-zu-Audio-GenerierungMMAudio: Nehmen Sie den Text als Eingabe, führen Sie das entsprechende Skript aus, und MMAudio erzeugt den entsprechenden Ton.
Gemeinsame multimodale AusbildungBenutzer können multimodales Co-Training an ihren eigenen Datensätzen auf der Grundlage des bereitgestellten Trainingscodes durchführen, um die Modellerstellung zu verbessern.
SynchronisationsmodulDas Modul richtet das erzeugte Audio automatisch am Videobild aus, um die Synchronisation von Audio und Video zu gewährleisten.

caveat

Anforderungen an die UmweltDerzeit nur auf Ubuntu-Systemen getestet, andere Systeme können zusätzliche Konfiguration erfordern.
abhängige VersionStellen Sie sicher, dass die installierten Versionen der Abhängigkeiten mit den Projektanforderungen übereinstimmen, um Kompatibilitätsprobleme zu vermeiden.
Pre-Training ModellVorgefertigte Modelle werden automatisch heruntergeladen, wenn das Demoskript ausgeführt wird, oder der Benutzer kann sie manuell herunterladen und in einem bestimmten Verzeichnis ablegen.

Mit diesen Schritten können Benutzer MMAudio schnell installieren und verwenden, um qualitativ hochwertiges synchronisiertes Audio zu erzeugen. Eine ausführliche Hilfe und Demoskripte helfen dem Benutzer, das Tool besser zu verstehen und zu bedienen.

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Gemini Search: eine KI-Suchmaschine im Stil von Perplexity, die in Gemini 2.0 Flash eingebaut ist

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI-Suchwerkzeug

vor 9 Monaten

017.5K

Qwen Chat: Nutzung aller Modelle der Qwen-Familie, Bilderzeugung, Dokumentenverarbeitung und Websuche

Neueste AI-Ressourcen # AI Big Model Native Dialogue Tool

vor 7 Monaten

029K

Devin Cursor Rules：让Cursor和Windsurf 强化为 Devin

Devin Cursor Rules: Cursor und Windsurfing für Devin verbessert

Neueste AI-Ressourcen # AI Java Open Source Projekt

vor 8 Monaten

018.5K

Cora Intelligence：AI自动化收集潜在客户数据的销售工具（付费）

Cora Intelligence: ein Vertriebswerkzeug für die KI-Automatisierung zur Erfassung von Interessentendaten (kostenpflichtig)

Neueste AI-Ressourcen # AI Marketing

vor 6 Monaten

016.6K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

MMAudio: Erzeugung von synchronisierten Soundeffekten und Tonspuren für Videomaterial, multimodales Co-Trainingstool für Video und Audio

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Detaillierte Funktionsabläufe

caveat

H2O GPT: Flexible Konfiguration von nativen KI-Dialog- und Dokumentenverarbeitungswerkzeugen

Leffa: High-fidelity model virtual fitting and character pose adjustment, Meta open source controllable character image generation model

Ähnliche Artikel

Gemini Search: eine KI-Suchmaschine im Stil von Perplexity, die in Gemini 2.0 Flash eingebaut ist

Qwen Chat: Nutzung aller Modelle der Qwen-Familie, Bilderzeugung, Dokumentenverarbeitung und Websuche

Devin Cursor Rules: Cursor und Windsurfing für Devin verbessert

Cora Intelligence: ein Vertriebswerkzeug für die KI-Automatisierung zur Erfassung von Interessentendaten (kostenpflichtig)

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

MMAudio: Erzeugung von synchronisierten Soundeffekten und Tonspuren für Videomaterial, multimodales Co-Trainingstool für Video und Audio

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Detaillierte Funktionsabläufe

caveat

H2O GPT: Flexible Konfiguration von nativen KI-Dialog- und Dokumentenverarbeitungswerkzeugen

Leffa: High-fidelity model virtual fitting and character pose adjustment, Meta open source controllable character image generation model

Ähnliche Artikel

Gemini Search: eine KI-Suchmaschine im Stil von Perplexity, die in Gemini 2.0 Flash eingebaut ist

Qwen Chat: Nutzung aller Modelle der Qwen-Familie, Bilderzeugung, Dokumentenverarbeitung und Websuche

Devin Cursor Rules: Cursor und Windsurfing für Devin verbessert

Cora Intelligence: ein Vertriebswerkzeug für die KI-Automatisierung zur Erfassung von Interessentendaten (kostenpflichtig)

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel