AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Seed-VC: unterstützt die Echtzeitkonvertierung von Sprache und Gesang mit weniger Samples

Allgemeine Einführung

Seed-VC ist ein Open-Source-Projekt auf GitHub, entwickelt von Plachtaa. Es kann eine 1 bis 30 Sekunden Referenz Audio verwenden, um schnell zu erreichen Stimme oder Song-Konvertierung, ohne zusätzliche Ausbildung. Das Projekt unterstützt Sprachkonvertierung in Echtzeit, mit einer Latenzzeit von nur 400 Millisekunden oder so, geeignet für Online-Meetings, Spiele oder Live-Einsatz. Seed-VC bietet drei Modi: Sprachkonvertierung (VC), Songkonvertierung (SVC) und Echtzeitkonvertierung. Es verwendet Flüstern und BigVGAN und andere Technologien, um einen klaren Klang zu gewährleisten. Der Code ist kostenlos und öffentlich zugänglich und kann von den Benutzern heruntergeladen und lokal erstellt werden. Offizielle Updates, ausführliche Dokumentation und aktive Unterstützung durch die Community.

Seed-VC: Unterstützung der Echtzeitumwandlung von Sprache und Gesang mit weniger Samples-1


 

Funktionsliste

  • Unterstützt die Zero-Sample-Konvertierung: Imitieren Sie die Zielstimme oder den Zielsong mit kurzen Audiodaten.
  • Sprachverarbeitung in Echtzeit: Die Stimme ändert sich nach der Mikrofoneingabe sofort in den Zielton.
  • Songkonvertierung: Konvertieren Sie einen beliebigen Song in die Stimme des angegebenen Sängers.
  • Anpassung der Audiolänge: Beschleunigen oder verlangsamen Sie die Sprache, um das Tempo zu kontrollieren.
  • Tonhöhenanpassung: Automatische oder manuelle Anpassung der Tonhöhe an den Zielton.
  • Web-Interface-Bedienung: Bietet eine einfache grafische Oberfläche für eine einfache Bedienung.
  • Unterstützung für benutzerdefiniertes Training: Optimieren Sie bestimmte Klänge mit einer geringen Datenmenge.
  • Offener Quellcode: vom Benutzer modifizierbare oder aktualisierbare Funktionen.

 

Hilfe verwenden

Ablauf der Installation

Um Seed-VC lokal zu verwenden, müssen Sie zunächst die Umgebung installieren. Nachfolgend finden Sie die detaillierten Schritte für Windows, Mac (mit Chips der M-Serie) oder Linux.

  1. Vorbereiten der Umgebung
    • Installieren Sie Python 3.10, indem Sie es von der offiziellen Website herunterladen.
    • Um Git zu installieren, suchen Sie nach "Git for Windows" für Windows-Benutzer oder brew install git for Mac.
    • GPU-Benutzer müssen CUDA 12.4 und die entsprechenden Treiber installieren, CPU kann auch laufen, aber langsamer.
    • Um FFmpeg für die Audiobearbeitung zu installieren, laden Sie es von der offiziellen Website für Windows herunter, installieren Sie ffmpeg mit brew für Mac, und installieren Sie es mit einem Paketmanager für Linux.
  2. Code herunterladen
    • Öffnen Sie eine Befehlszeile (CMD oder Anaconda Prompt für Windows, Terminal für Mac/Linux).
    • Geben Sie git clone https://github.com/Plachtaa/seed-vc.git ein, um das Projekt herunterzuladen.
    • Wechseln Sie in das Verzeichnis: cd seed-vc .
  3. Einrichten einer virtuellen Umgebung
    • Geben Sie python -m venv venv ein, um eine eigenständige Umgebung zu erstellen.
    • Aktivieren Sie die Umwelt:
      • Windows: venv\Scripts\aktivieren
      • Mac/Linux: Quelle venv/bin/activate
    • Siehe (venv) für den Erfolg.
  4. Installation von Abhängigkeiten
    • Windows/Linux Geben Sie pip install -r requirements.txt ein.
    • Mac M-Serie pip install -r requirements-mac.txt eingeben.
    • Spiegelung für Netzwerkprobleme hinzufügen: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
  5. laufendes Programm
    • Sprachumwandlung: python app_vc.py
    • Liedumwandlung: python app_svc.py
    • Echtzeit-Konvertierung: python real-time-gui.py
    • Nach der Ausführung besucht der Browser http://localhost:7860, um die Schnittstelle zu nutzen.

Hauptfunktionen

1. die Sprachumwandlung (VC)

  • umziehen::
    1. Führen Sie python app_vc.py aus und öffnen Sie Ihren Browser auf http://localhost:7860.
    2. Laden Sie das Original-Audio (Quell-Audio) und das Referenz-Audio (Referenz-Audio, 1-30 Sekunden) hoch.
    3. Stellen Sie die Diffusionsschritte ein, standardmäßig 25, für eine bessere Klangqualität stellen Sie 30-50 ein.
    4. Länge anpassen, weniger als 1 beschleunigt, mehr als 1 verlangsamt.
    5. Klicken Sie auf Senden, warten Sie ein paar Sekunden und laden Sie das Konvertierungsergebnis herunter.
  • zur Kenntnis nehmen::
    • Beim ersten Durchlauf wird automatisch das Modell seed-uvit-whisper-small-wavenet heruntergeladen.
    • Der Referenzton wird nach 30 Sekunden abgeschaltet.

2. die Umwandlung von Liedstimmen (SVC)

  • umziehen::
    1. Führen Sie python app_svc.py aus, um die Webschnittstelle zu öffnen.
    2. Laden Sie die Audiodaten von Liedern und Sängern als Referenz hoch.
    3. Wählen Sie die f0-Bedingung, um die Tonhöhe des Liedes beizubehalten.
    4. Optionale Auto-F0-Anpassung Passt die Tonhöhe automatisch an.
    5. Setzen Sie die Anzahl der Diffusionsschritte auf 30-50 und klicken Sie auf Senden.
  • Fähigkeiten::
    • Die besten Ergebnisse erzielen Sie, wenn Sie einen klaren und störungsfreien Referenzton verwenden.
    • Modelle laden standardmäßig seed-uvit-whisper-base herunter.

3. die Umwandlung in Echtzeit

  • umziehen::
    1. Führen Sie python real-time-gui.py aus, um die Schnittstelle zu öffnen.
    2. Laden Sie den Referenzton hoch und schließen Sie das Mikrofon an.
    3. Einstellparameter: Diffusionsstufen 4-10, Blockzeit 0,18 Sek.
    4. Klicken Sie auf "Start" und die Stimme ändert sich in Echtzeit, während Sie sprechen.
    5. Verwenden Sie VB-CABLE, um den Ausgang an das virtuelle Mikrofon zu leiten.
  • Anfrage::
    • GPU-Empfehlungen (z. B. RTX 3060) mit einer Latenz von etwa 430 ms.
    • Die Latenzzeit der CPU ist höher.

4. die Befehlszeilenoperationen

  • Beispiel für Sprachumwandlung::
     python inference.py --source input.wav --target ref.wav --output . /out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
  • Beispiel für eine Liedumwandlung::
     python inference.py --source song.wav --target singer.wav --output . /out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
    

5. maßgeschneiderte Ausbildung

  • umziehen::
    1. Bereiten Sie eine 1-30 Sekunden lange Audiodatei (.wav/.mp3, etc.) in einem Ordner vor.
    2. Lauftraining:
       python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir . /data --run-name myrun --max-steps 1000
      
    3. Post-Training Checkpoint in . /runs/myrun/ft_model.pth .
    4. Reasoning mit benutzerdefinierten Modellen:
       python app_svc.py --checkpoint . /runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
      
  • zur Kenntnis nehmenMindestens 1 Audiobeispiel zum Trainieren, etwa 2 Minuten für 100 Schritte (T4 GPU).

zusätzlicher Hinweis

  • Modellauswahl::
    • Echtzeit mit seed-uvit-tat-xlsr-tiny (25M Parameter).
    • Offline-Stimme mit seed-uvit-whisper-small-wavenet (98M Parameter).
    • Für Gesang verwenden Sie seed-uvit-whisper-base (200M Parameter, 44kHz).
  • Komponenten während der Prüfung anpassen::
    • Melden Sie einen Fehler ModuleNotFoundError , überprüfen Sie die Abhängigkeit.
    • Macs benötigen möglicherweise Python mit installiertem Tkinter, um Echtzeit-GUIs auszuführen.

 

Anwendungsszenario

  1. Entertainment-Synchronisation
    Verwandeln Sie Stimmen in Zeichentrickfiguren, um lustige Videos zu erstellen.
  2. Musikproduktion
    Verwandelt gewöhnlichen Gesang in professionelle Sängertöne und erstellt Song-Demos.
  3. Live-Interaktion
    Der Moderator ändert seine Stimme in Echtzeit, um den Spaß an der Sendung zu erhöhen.
  4. Sprachenlernen
    Imitieren Sie die Sprache von Muttersprachlern und üben Sie die Aussprache.

 

QA

  1. Benötigen Sie eine große Menge an Daten?
    Nein. 1 kurzer Audioclip wird für die Konvertierung und nur 1 Sample für das Training benötigt.
  2. Unterstützt es chinesisches Audio?
    Unterstützung. Solange der Referenzton auf Chinesisch ist, ist die Konvertierung auch klar.
  3. Wie sieht es mit hohen Latenzzeiten aus?
    Verwenden Sie die GPU und stellen Sie eine niedrige Diffusionsstufe (4-10) ein.
  4. Was ist mit der schlechten Tonqualität?
    Erhöhen Sie die Diffusionsschritte auf 50, oder verwenden Sie sauberes Referenz-Audio.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Seed-VC: unterstützt die Echtzeitkonvertierung von Sprache und Gesang mit weniger Samples
de_DE_formalDeutsch (Sie)