AI Personal Learning
und praktische Anleitung

Retrieval-basierte Sprachumwandlung WebUI: Ein Framework für Retrieval-basierte Sprachumwandlung | Simulation realer Gesangsstimmen

Allgemeine Einführung

Abruf basierte Sprachumwandlungs-WebUI ist ein einfaches und benutzerfreundliches VITS-basiertes Sprachumwandlungs-Framework, das die Sprachumwandlung zwischen beliebigen Lautsprechern, einschließlich Song-Covers und Sprachumwandlung in Echtzeit, realisieren kann. Es zeichnet sich durch niedrige Latenz, hervorragende Sprachumwandlungseffekte, geringe Datenmengen usw. aus. Es unterstützt die Beschleunigung von N-, A- und I-Karten, bietet ein Webinterface und eine Schnittstelle für die Sprachumwandlung in Echtzeit und kann auch das UVR5-Modell aufrufen, um die menschliche Stimme und den Hintergrundgesang schnell zu trennen, und den fortschrittlichsten Algorithmus zur Extraktion der Stimmlage RMVPE verwenden, um das Problem der stummen Stimmen zu beseitigen.

colab online erleben

Das untere Modell wurde mit fast 50 Stunden hochwertiger Open-Source-VCTK-Trainingsdaten trainiert, ohne dass urheberrechtliche Bedenken bestehen.


Freuen Sie sich auf das Basismodell von RVCv3, mit größeren Parametern, größeren Daten, besseren Ergebnissen, im Wesentlichen gleicher Inferenzgeschwindigkeit und weniger erforderlichen Trainingsdaten.

 

-1

Training Reasoning Interface

 

-2

Echtzeit-Sprachwechsel-Schnittstelle

 

 

Funktionsliste

 

  • Trainieren Sie Ihr eigenes Sprachumwandlungsmodell mit nur 10 Minuten Sprachdaten
  • Unterstützt mehrere Abtastraten und Töne mithilfe von vortrainierten Sprachkonvertierungsmodellen
  • Sprachumwandlung über eine Webschnittstelle oder eine Echtzeit-Sprachumwandlungsschnittstelle mit Unterstützung für niedrige End-to-End-Latenzzeiten
  • Getrennte Gesangs- und Hintergrundspuren mit UVR5-Modellierung, Unterstützung mehrerer Audiodateiformate
  • Verwendung des RMVPE-Algorithmus zur Extraktion der Stimmlage, Unterstützung von pytorch/onnx/DirectML

 

 

Hilfe verwenden

 

  • Laden Sie dieses Repository herunter oder klonen Sie es, installieren Sie die erforderlichen Abhängigkeiten und Vormodelle
  • Führen Sie go-web.bat oder go-realtime-gui.bat aus und wählen Sie die gewünschte Aktion.
  • Wählen Sie gemäß den Anweisungen auf der Benutzeroberfläche die Eingabe- und Ausgabedateien oder -geräte aus und passen Sie die Parameter und Optionen an.
  • Klicken Sie auf Start oder Stopp und genießen Sie die Sprachumwandlung!
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Retrieval-basierte Sprachumwandlung WebUI: Ein Framework für Retrieval-basierte Sprachumwandlung | Simulation realer Gesangsstimmen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)