CSM Voice Cloning: Schnelles Voice Cloning mit CSM-1B

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

Allgemeine Einführung

CSM Voice Cloning ist ein Open-Source-Projekt, das von Isaiah Bjork entwickelt und auf GitHub gehostet wird. Es basiert auf dem Sesame CSM-1B-Modell, das es Nutzern ermöglicht, ihre eigenen Stimmen zu klonen und eine Stimme mit ihren eigenen persönlichen Merkmalen zu erzeugen, indem sie einfach ein Audio-Sample bereitstellen. Das Tool unterstützt sowohl lokale GPU-Läufe als auch Modal-Cloud-Läufe, so dass es sich für Inhaltsersteller, Entwickler oder jeden, der sich für Sprachtechnologie interessiert, eignet. Obwohl die Ergebnisse des Klonens nicht perfekt sind, behält die generierte Stimme einige der Eigenschaften der Zielstimme bei und der Effekt ist erkennbar. Es erfordert einige technische Grundlagen, wie die Installation von Python und die Konfiguration der Umgebung, aber eine detaillierte Anleitung ist offiziell verfügbar. Das Projekt ist völlig kostenlos und die Community ist eingeladen, Verbesserungen am Code beizutragen.

Funktionsliste

Klonen von Sprache: Hochladen von Audiobeispielen, um Sprache zu erzeugen, die ähnlich wie das Beispiel klingt.
Text-to-Speech: Geben Sie Text ein und erzeugen Sie Audiodateien mit geklonten Stimmen.
Lokaler Betrieb: Verwenden Sie Ihren persönlichen Grafikprozessor zur Verarbeitung von Spracherzeugungsaufgaben.
Läuft in der Cloud: Beschleunigt durch Cloud-GPUs über die Modal-Plattform.
Open-Source-Unterstützung: Der Code ist öffentlich und kann vom Benutzer geändert oder optimiert werden.
Unterstützt gängige Audioformate: Akzeptiert MP3- oder WAV-Dateien als Samples.
Parameteranpassung: Ermöglicht dem Benutzer die Anpassung der Modelleinstellungen an unterschiedliche Audiolängen.

Hilfe verwenden

Einbauverfahren

Um CSM Voice Cloning verwenden zu können, müssen die Benutzer zunächst die Laufzeitumgebung einrichten. Nachfolgend finden Sie die detaillierten Schritte:

Lokales Ausführen der Installation

Hardware- und Softwareanforderungen prüfen
- Benötigt Python 3.10 oder höher.
- Für den lokalen Betrieb sind NVIDIA CUDA-kompatible Grafikkarten und ausreichend Videospeicher erforderlich.
- Stellen Sie sicher, dass Sie eine Internetverbindung haben, um Modelle und Abhängigkeiten herunterzuladen.
Code-Repository klonen
- Öffnen Sie ein Terminal (CMD oder PowerShell für Windows, Bash für Linux/Mac).
- Geben Sie den Befehl ein:
```
git clone https://github.com/isaiahbjork/csm-voice-cloning.git
cd csm-voice-cloning
```
Installieren von Abhängigkeiten
- Läuft im Terminal:
```
pip install -r requirements.txt
```
- Dadurch werden die erforderlichen Bibliotheken wie PyTorch, Hugging Face usw. installiert.

Cloud Run Installation (Modal)

Modal installieren
- Läuft im Terminal:
```
pip install modal
```
Konfigurieren der modalen Authentifizierung
- Geben Sie den Befehl ein:
```
modal token new
```
- Folgen Sie den Anweisungen, um sich bei Ihrem Modal-Konto anzumelden oder ein neues Konto zu erstellen.

Konfigurieren des Kontos "Hugging Face

Registrieren und einen Token erhalten
- Besuchen Sie die Website von Hugging Face, um sich zu registrieren oder einzuloggen.
- existieren Sesam CSM-1B Modellseite Klicken Sie auf "Zugang zum Repository" und akzeptieren Sie die Bedingungen.
- Generieren Sie API-Tokens: Klicken Sie auf Ihren Avatar in der oberen rechten Ecke -> Einstellungen -> Wertmarken -> Neuer Token.
Token einrichten
- Methode 1: Geben Sie in das Terminal ein:
```
export HF_TOKEN="你的令牌"
```
- Methode 2: Modifizierung voice_clone.py Datei, finden Sie die os.environ["HF_TOKEN"]das Token ausfüllen.

Vorbereiten von Hörproben

Audio aufzeichnen
- Nehmen Sie einen klaren 2-3-minütigen Audioclip auf, möglichst ohne Hintergrundgeräusche.
- Speichern im MP3- oder WAV-Format, z. B. sample.mp3.
Transkription des Textes
- Kosten oder Aufwand Flüstern oder ein anderes Tool, um den Audioinhalt zu transkribieren, und notieren Sie den genauen Text (z. B. "Hallo, das ist mein Test-Audio").

Hauptfunktionen

Muttersprachler-Klon (Informatik)

Parameter bearbeiten
- zeigen (eine Eintrittskarte) voice_clone.py Datei ändern Sie Folgendes:
  - context_audio_path = "sample.mp3"(Audiopfad).
  - context_text = "你好，这是我的测试音频"(transkribierter Text).
  - text = "今天天气很好"(zu generierender Text).
  - output_filename = "output.wav"(Name der Ausgabedatei).
laufendes Programm
- Geben Sie ihn in das Terminal ein:
```
python voice_clone.py
```
- Das erzeugte Audio wird im Projektordner gespeichert.

Cloud-basiertes Klonen von Stimmen (Modal)

Parameter bearbeiten
- zeigen (eine Eintrittskarte) modal_voice_cloning.py Datei, wobei die gleichen Parameter wie bei local gesetzt werden:
  - context_audio_path = "sample.mp3".
  - context_text = "你好，这是我的测试音频".
  - text = "今天天气很好".
  - output_filename = "output.wav".
laufendes Programm
- Geben Sie ihn in das Terminal ein:
```
modal run modal_voice_cloning.py
```
- Modal nutzt die Cloud GPU, um die Aufgabe zu verarbeiten und die Ausgabedatei herunterzuladen, wenn sie fertig ist.

Einstellen der Länge der Modellfolge

Wenn das Audio-Sample lang ist (mehr als 2-3 Minuten), kann es zu Fehlern bei der Tensordimension kommen.
Lösung:
1. zeigen (eine Eintrittskarte) models.py Dokumentation.
2. ausfindig machen. llama3_2_1B() Funktion, die die max_seq_len Parameter:
```
def llama3_2_1B():
return llama3_2.llama3_2(max_seq_len=4096, ...)
```
3. sicher llama3_2_100M() Wert derselbe ist, speichern Sie ihn und führen Sie ihn erneut aus.

Featured Function Bedienung

Cloud-Beschleunigung (Modal)

Modal bietet Cloud-GPUs für diejenigen, die keine leistungsstarken lokalen Geräte haben.
Es ist einfach zu bedienen: Installieren Sie Modal und führen Sie die entsprechenden Skripte aus, um eine schnellere Verarbeitung als lokal zu erreichen.

Verarbeitung langer Audiodaten

Die Standardeinstellung gilt für Proben von bis zu 2 Minuten und 50 Sekunden.
Längerer Ton muss angepasst werden max_seq_len(wie oben beschrieben), oder bringen Sie die Probe auf die empfohlene Länge.

Häufig gestellte Fragen

Tensor-Dimensionsfehler
Erhöhung max_seq_len Werte, oder kürzen Sie die Audio-Samples.
CUDA-Speicher nicht voll
Verwenden Sie kürzere Proben, oder wechseln Sie zu einem modalen Cloud-Lauf.
Modell-Download fehlgeschlagen
Überprüfen Sie die Token und Netzwerke von Hugging Face, um sicherzustellen, dass die Modellbedingungen akzeptiert wurden.

Anwendungsszenario

Erstellung von Inhalten
- Beschreibung der Szene
  Moderatoren können Videokommentare mit ihrer eigenen Stimme erstellen. Laden Sie eine Audioaufnahme zur Selbstvorstellung hoch, geben Sie ein Skript ein und erzeugen Sie Ihre Stimme in wenigen Minuten, sodass keine wiederholten Aufnahmen erforderlich sind.
Pädagogische Unterstützung
- Beschreibung der Szene
  Der Dozent klont seine eigene Stimme und gibt die Kursvorträge ein, um das Unterrichtsvideo zu erstellen. Die Studierenden können sich die Vorlesungen jederzeit anhören, was für den Fernunterricht geeignet ist.
Spieleentwicklung
- Beschreibung der Szene
  Entwickler sprechen Spielfiguren. Nehmen Sie einige Samples auf, um mehrere Dialoge zu generieren und den Realismus der Charaktere zu verbessern.

QA

Wie lang muss das Hörbeispiel sein?
Empfohlen werden 2-3 Minuten. Zu kurz für schlechte Ergebnisse, zu lang für die Anpassung der Parameter.
Warum sieht die erzeugte Stimme nicht so aus wie ich?
Die Modellierung ist begrenzt und behält die Klangeigenschaften bei, ist aber nicht perfekt. Vergewissern Sie sich, dass das Sample klar ist und versuchen Sie es mehrmals mit verschiedenen Texten.
Was ist der Unterschied zwischen Modal und lokalem Betrieb?
Modal verwendet Cloud-GPUs und ist schnell für Nutzer ohne leistungsstarke Geräte. Die lokale Ausführung ist kostenlos, erfordert aber eine gute Grafikkarte.