ThinkSound - Audio Generation Modelling von Ali Tongyi

Neueste AI-RessourcenGeschrieben vor 2 Monaten AI-Austauschkreis

9.7K 00

Was ist ThinkSound?

ThinkSound ist das erste CoT (Chain Thinking)-Audiogenerierungsmodell, das vom Sprachteam von Ali Tongyi eingeführt wurde. Das Modell kann auf der Grundlage der Einführung des CoT-Denkens genau abgestimmte Soundeffekte für Videobilder erzeugen, um das Problem zu lösen, dass es für herkömmliche Technologien schwierig ist, die dynamischen Details und räumlichen Beziehungen des Bildes zu erfassen. Das Modell basiert auf einer Denkkette dritter Ordnung, die die Tonerzeugung steuert, einschließlich grundlegender Toninferenz, Interaktion auf Objektebene und Befehlsbearbeitung. Das Modell ist mit dem AudioCoT-Datensatz ausgestattet, der Audiodaten enthält, die mit der Gedankenkette annotiert sind, und weist eine hervorragende Leistung im VGGSound-Datensatz auf. ThinkSound wird in der Film- und Fernsehproduktion, der Spieleentwicklung, der Werbung und im Marketing sowie in der virtuellen Realität (VR) und der erweiterten Realität (AR) eingesetzt, um den Realismus und die Immersion der Audio-Video-Synchronisation zu verbessern.

Die wichtigsten Merkmale von ThinkSound

Grundlegende KlangerzeugungBasierend auf dem Inhalt des Videos werden grundlegende Soundeffekte generiert, die zur Semantik und zum Timing des Bildschirms passen, um einen geeigneten Audio-Hintergrund für das Video zu schaffen, so dass das Video nicht mehr eintönig und still ist.
Interaktive Verfeinerung auf ObjektebeneDer Nutzer klickt auf ein bestimmtes Objekt im Video, um den Soundeffekt des jeweiligen Objekts zu verfeinern und zu optimieren, so dass der Soundeffekt besser zum jeweiligen visuellen Element passt und die Koordination von Ton und Bild verbessert wird.
Befehlsgesteuerte AudiobearbeitungSie unterstützt die Benutzer bei der Bearbeitung der erzeugten Audiodaten mit Befehlen in natürlicher Sprache, z. B. beim Hinzufügen, Löschen oder Ändern bestimmter Soundeffekte, um unterschiedliche kreative Anforderungen zu erfüllen und die Audioerzeugung flexibler und vielfältiger zu gestalten.

Offizielle Website-Adresse von ThinkSound

Projekt-Website:: https://thinksound-project.github.io/
GitHub-Repository:: https://github.com/liuhuadai/ThinkSound
HuggingFace-Modellbibliothek:: https://huggingface.co/liuhuadai/ThinkSound
arXiv Technisches Papier:: https://arxiv.org/pdf/2506.21448

Wie man ThinkSound verwendet

Vorbereitung der Umwelt::
- Installation von PythonStellen Sie sicher, dass Python auf Ihrem System installiert ist (Python 3.8 und höher wird empfohlen).
- Installation von abhängigen BibliothekenInstallieren Sie die erforderlichen Abhängigkeits-Bibliotheken für ThinkSound mit dem folgenden Befehl:

pip install -r requirements.txt

- - Die spezifische Abhängigkeitsdatei requirements.txt ist im GitHub-Repository zu finden.
Modelle herunterladen::
- GitHub-Repository herunterladenBesuchen Sie das GitHub-Repository von ThinkSound (https://github.com/liuhuadai/ThinkSound), um das Repository lokal zu klonen:

git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound

- Gesicht umarmen DownloadLaden Sie die Form direkt aus der Modellbibliothek von Hugging Face herunter (https://huggingface.co/liuhuadai/ThinkSound).
Vorbereitung der Daten::
- Vorbereiten der VideodateiVergewissern Sie sich, dass eine Videodatei vorhanden ist. ThinkSound generiert den Ton auf der Grundlage dieses Videos.
- Vorbereiten der BefehlsdateiWenn für die Bearbeitung des Tons Anweisungen in natürlicher Sprache erforderlich sind, erstellen Sie eine Textdatei mit den Anweisungen.
- Betriebsmodell::
  - Grundlegende Klangerzeugung: Führen Sie den folgenden Befehl aus, um den Basissound zu erzeugen:

python generate.py --video_path <path_to_your_video> --output_path <path_to_output_audio>

- - Interaktive Verfeinerung auf ObjektebeneWenn Sie die Klangeffekte für ein bestimmtes Objekt verfeinern möchten, können Sie dies tun, indem Sie die entsprechenden Parameter im Code ändern oder die interaktive Schnittstelle verwenden (sofern unterstützt).
  - Befehlsgesteuerte AudiobearbeitungBearbeiten Sie den Ton mit Befehlen in natürlicher Sprache, die auf den folgenden Befehlen basieren:

python edit.py --audio_path <path_to_generated_audio> --instruction_file <path_to_instruction_file> --output_path <path_to_edited_audio>

Ergebnisse anzeigen::
- Prüfen des erzeugten TonsIm angegebenen Ausgabepfad die erzeugte Audiodatei finden, abspielen und mit dem Audioplayer überprüfen.
- AnpassungsparameterJe nach erzeugtem Audioeffekt passen Sie die Modellparameter oder Eingabebefehle an, um einen zufriedenstellenden Audioeffekt zu erzielen.

Die wichtigsten Vorteile von ThinkSound

Verkettetes Denken - Reasoning (CoT)Der Ton basiert auf einem mehrstufigen Verfahren, das den kreativen Prozess menschlicher Toningenieure nachahmt, die dynamischen Details und räumlichen Beziehungen des Bildschirms genau erfasst, einen hochgradig abgestimmten Ton erzeugt und den Realismus von synchronisiertem Ton und Bild verbessert.
Multimodale Modellierung großer Sprachen (MLLM)Extraktion von raum-zeitlichen Videoinformationen und semantischen Inhalten auf der Grundlage von Modellen wie VideoLLaMA2, Generierung strukturierter Inferenzketten für die semantisch abgestimmte Audiogenerierung und Verbesserung der Audio-Bild-Koordination.
Unified Audio-BasismodellBasierend auf der Conditional-Flow-Matching-Technologie in Kombination mit multimodalen Kontextinformationen zur Erzeugung von High-Fidelity-Audio, die flexible Kombinationen von Eingabemodi unterstützt, um unterschiedliche Erzeugungs- und Bearbeitungsanforderungen zu erfüllen.
Interaktive Verfeinerung auf ObjektebeneDie Soundeffekte sind für das Anklicken bestimmter Objekte im Video optimiert, so dass die Soundeffekte genau auf die visuellen Elemente abgestimmt sind, was die Koordination und den Realismus von Ton und Bild verbessert, und die Bedienung ist intuitiv und bequem.
Befehlsgesteuerte AudiobearbeitungUnterstützt natürlichsprachliche Befehle für die Audiobearbeitung, z. B. das Hinzufügen, Löschen oder Ändern bestimmter Soundeffekte, und ermöglicht so eine hochgradig individuelle Audioerstellung, um unterschiedlichen kreativen Anforderungen gerecht zu werden und die kreative Freiheit zu erhöhen.
Leistungsstarke Unterstützung von DatensätzenAusgestattet mit dem AudioCoT-Datensatz mit strukturierten CoT-Annotationen, die beim Training von Optimierungsmodellen verwendet werden, um das Verständnis und die Erzeugung von audiovisuellen Beziehungen zu verbessern und die Qualität der Audioerzeugung zu gewährleisten.

Für wen ThinkSound geeignet ist

FilmproduzentFilm- und TV-Serien-Produktionsteams und Autoren von Kurzvideos können schnell realistische Hintergrundgeräusche und szenenspezifische Soundeffekte erzeugen, um das Eintauchen des Publikums und die Attraktivität der Inhalte zu verbessern.
SpieleentwicklerDas Unternehmen erzeugt dynamische Umgebungs- und interaktive Soundeffekte, die das Eintauchen des Spielers in das Spielgeschehen und die Interaktivität verbessern und dabei Kosten und Zeit für die Soundproduktion sparen.
Personal für Werbung und MarketingWerbeagenturen und Ersteller von Inhalten für soziale Medien können ansprechende Soundeffekte und Soundtracks für Werbevideos und Videos für soziale Medien erstellen, um die Attraktivität der Inhalte und die Beteiligung der Nutzer zu erhöhen.
Bildung und Ausbildung von PersonalOnline-Schulungsplattformen und Ausbilder in Unternehmen, die Toneffekte für Lehrvideos und simulierte Schulungsumgebungen erzeugen, die auf den Inhalt abgestimmt sind und den Schülern helfen, ihn besser zu verstehen und sich zu merken, und die die Wirksamkeit der Schulung erhöhen.
Virtual Reality (VR)- und Augmented Reality (AR)-EntwicklerVR/AR-Anwendungsentwickler und Erlebnisdesigner können hochgradig abgestimmte Soundeffekte in virtuellen Umgebungen erzeugen, die das Eintauchen und die Interaktivität der Benutzer verbessern und personalisierte Erlebnisse bieten.