AI Personal Learning
und praktische Anleitung

TangoFlux: Schnelles Text-zu-Dub-Konvertierungstool, das 30 Sekunden langes Audio in 3 Sekunden erzeugt!

Allgemeine Einführung

TangoFlux ist ein von DeCLaRe Lab entwickeltes effizientes Modell zur Erzeugung von Text-zu-Audio (TTA). Das Modell ist in der Lage, bis zu 30 Sekunden 44,1kHz-Stereo-Audio in nur 3,7 s zu erzeugen. TangoFlux nutzt Stream-Matching- und Clap-Ranked Preference Optimization (CRPO)-Techniken, um den TTA-Abgleich durch die Erzeugung und Optimierung von Präferenzdaten zu verbessern. Das Modell schneidet sowohl in objektiven als auch in subjektiven Benchmarks gut ab, und der gesamte Code und die Modelle sind quelloffen, um weitere Forschungen zur TTA-Generierung zu unterstützen.

TangoFlux: Schnelles Tool zur Umwandlung von Text in Voiceover, das 30 Sekunden langes Audio in 3 Sekunden-1 erzeugt

Erfahrung: https://huggingface.co/spaces/declare-lab/TangoFlux


 

Die Singapore University of Technology and Design (SUTD) und NVIDIA haben gemeinsam TangoFlux veröffentlicht, ein hocheffizientes Text-to-Audio (TTA)-Generierungsmodell mit ca. 115 Millionen Parametern, das auf einem einzelnen A40-Grafikprozessor in nur 3,7 Sekunden bis zu 44,1kHz Audio generieren kann. Mit ca. 515 Millionen Parametern ist das Modell in der Lage, bis zu 30 Sekunden 44,1-kHz-Audio in nur 3,7 Sekunden auf einem einzigen A40-Grafikprozessor zu erzeugen. TangoFlux hat nicht nur eine ultraschnelle Generierungsgeschwindigkeit, sondern auch eine bessere Audioqualität als Open-Source-Audiomodelle wie Stable Audio.

Vergleichen Sie TANGoFLux mit anderen hochmodernen Open-Source-Modellen zur Text-Audio-Generierung: TANGoFLux generiert nicht nur etwa doppelt so schnell wie die schnellsten Modelle, sondern erreicht auch eine bessere Audioqualität (gemessen an CLAP- und FD-Scores), und das alles mit weniger trainierbaren Parametern.

TangoFlux: Schnelles Tool zur Umwandlung von Text in Voiceover, das 30 Sekunden langes Audio in 3 Sekunden-1 erzeugt

 

TangoFlux mit dem Titel "Ultra-schnelle und getreue Text-zu-Audio-Generierung über Stream Matching und Clap-Ranked Preference Optimisation" besteht aus FluxTransformer-Blöcken, die Diffusion Transformers (DiTs) und Multi-Modal Diffusion Transformers (MMDiTs), die auf Text-Cues und Duration Embeddings konditioniert sind, um bis zu 30 Sekunden 44,1kHz Audio zu generieren. Es handelt sich um den Diffusionstransformator (DiT) und den Multimodalen Diffusionstransformator (MMDiT), die auf textuelle Hinweise und Dauereinbettungen konditioniert sind, um 44,1-kHz-Audio mit einer Länge von bis zu 30 Sekunden zu erzeugen.TangoFlux erlernt rektifizierte Streaming-Trajektorien der latenten Repräsentationen des durch den variablen Auto-Encoder (VAE) kodierten Audios.Die TangoFlux-Trainings-Pipeline besteht aus drei Phasen: Pre-Training, Feinabstimmung und Optimierung der Präferenzen mithilfe des CRPO. Konkret erzeugt CRPO iterativ neue synthetische Daten und konstruiert Präferenzpaare unter Verwendung von DPO-Verlusten zur Präferenzoptimierung für das Stream-Matching.

TangoFlux: Schnelles Tool zur Umwandlung von Text in Voiceover, das 30 Sekunden langes Audio in 3 Sekunden-1 erzeugt

 

Funktionsliste

  • Schnelle Audioerzeugung: Erzeugt bis zu 30 Sekunden Audio in hoher Qualität in 3,7 Sekunden.
  • Stream-Matching-TechnologieAudioerzeugung mit FluxTransformer und multimodalen Diffusionstransformatoren.
  • CRPO-OptimierungVerbessern Sie die Qualität der Audiogenerierung durch die Generierung und Optimierung von Präferenzdaten.
  • Mehrstufige AusbildungEs besteht aus drei Phasen: Vortraining, Feinabstimmung und Präferenzoptimierung.
  • offene QuelleAlle Codes und Modelle sind quelloffen und unterstützen weitere Forschung.

 

Hilfe verwenden

Ablauf der Installation

  1. Umgebung KonfigurationVergewissern Sie sich, dass Python 3.7 und höher installiert ist und dass die erforderlichen Bibliotheken installiert sind.
  2. Klon-Lager: In einem Terminal ausführen git clone https://github.com/declare-lab/TangoFlux.git Klon-Lagerhaus.
  3. Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und führen Sie pip install -r anforderungen.txt Installieren Sie alle Abhängigkeiten.

Verwendung Prozess

  1. Modellschulung::
    • Konfigurationsbeschleuniger: Ausführen Konfiguration beschleunigen und folgen Sie den Aufforderungen zur Konfiguration der Laufzeitumgebung.
    • Konfigurieren Sie den Pfad der Trainingsdatei: in der configs/tangoflux_config.yaml Geben Sie den Pfad der Trainingsdatei und die Hyperparameter des Modells in der Datei
    • Starten Sie das Trainingsskript: Verwenden Sie den folgenden Befehl, um das Training zu starten:
     CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" -- save_every=5 --config='configs/tangoflux_config.yaml'
    
    • DPO Training: Ändern Sie die Trainingsdatei so, dass sie die Felder "chosen", "reject", "caption" und "duration" enthält, und führen Sie den folgenden Befehl aus:
     CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best "---save_every=5 --config='configs/tangoflux_config.yaml'
    
  2. modellhafte Argumentation::
    • Modell herunterladen: Stellen Sie sicher, dass Sie das TangoFlux-Modell heruntergeladen haben.
    • Audio generieren: Verwenden Sie den folgenden Code, um aus einer Texteingabeaufforderung Audio zu generieren:
     importiere torchaudio
    von tangoflux importieren TangoFluxInference
    aus IPython.display importieren Audio
    model = TangoFluxInference(name='declare-lab/TangoFlux')
    audio = model.generate("Textprompt zur Erzeugung von Audio", duration=10)
    audio(audio, rate=44100)
    

Detaillierte Funktionsweise

  • Text-zu-Audio-GenerierungGeben Sie einen Text ein, legen Sie die Dauer des erzeugten Tons fest (1 bis 30 Sekunden), und das Modell wird den entsprechenden hochwertigen Ton erzeugen.
  • Tendenz zur OptimierungDurch die CRPO-Technologie ist das Modell in der Lage, Audiosignale zu erzeugen, die den Vorlieben des Nutzers besser entsprechen.
  • Mehrstufige AusbildungEs besteht aus drei Phasen: Vortraining, Feinabstimmung und Optimierung der Präferenzen, um die Qualität und Konsistenz der vom Modell erzeugten Audiodaten zu gewährleisten.

caveat

  • Hardware-VoraussetzungEs wird empfohlen, für eine optimale Leistung einen Grafikprozessor mit höherer Rechenleistung (z. B. A40) zu verwenden.
  • Vorbereitung der DatenVielfalt und Qualität der Trainingsdaten sicherstellen, um die Modellerstellung zu verbessern.

Mit diesen Schritten können Benutzer schnell mit TangoFlux für eine hochwertige Text-zu-Audio-Konvertierung beginnen. Ausführliche Installations- und Nutzungsanweisungen stellen sicher, dass die Benutzer das Modelltraining und die Inferenz erfolgreich abschließen können.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " TangoFlux: Schnelles Text-zu-Dub-Konvertierungstool, das 30 Sekunden langes Audio in 3 Sekunden erzeugt!

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)