Allgemeine Einführung
Das Fish-Speech-Derivatprojekt Fish Agent ist ein revolutionäres End-to-End-KI-Sprachklon-System, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Das wichtigste Merkmal dieses Systems ist die innovative semantische taglose Architektur, die den Einsatz traditioneller semantischer Encoder/Decoder wie Whisper überflüssig macht und eine direkte Sprachumwandlung ermöglicht. Mit einer extrem niedrigen Latenzzeit (bis zu 150 ms) ist das System in der Lage, Audioinformationen aus der Umgebung genau zu erfassen und zu generieren, um Sprachkloneffekte nahezu in Echtzeit zu erzielen.Fish Agent ermöglicht das Herunterladen von vortrainierten Modellen und unterstützt das Training vor Ort und den Aufruf von Cloud-Diensten, was Entwicklern und Nutzern einen flexiblen Nutzungsplan bietet. Mit integrierten Spracherkennungs- und Sprachsynthesefunktionen und einer präzisen Tonsteuerung ist Fish Agent in der Lage, eine natürliche und reibungslose Sprachinteraktion zu ermöglichen.
End-to-End-Architektur, Zero-Sample Sound Cloning, kompaktes Modell mit 3 Milliarden Parametern, Unterstützung für Mehrsprachigkeit und schnelle Reaktion. Die Trainingsdaten umfassen 700.000 Stunden mehrsprachiges Audiomaterial. Basierend auf Qwen-2.5-3B-Instruct fortgesetztes Pre-Training. Das Modell mit dem Namen Fish Agent Version 3B integriert automatisch ASR- und TTS-Komponenten, wodurch externe Modelle überflüssig werden und eine echte End-to-End-Verarbeitung ermöglicht wird, die sich von dem herkömmlichen dreistufigen Prozess (ASR + LLM + TTS) unterscheidet.
Funktionsliste
- Klonen von Stimmen mit extrem geringer Latenz: 150 ms Reaktionszeit, unterstützt Sprachkonvertierung in Echtzeit
- Semantikfreie Markup-Architektur: eine innovative End-to-End-Lösung für die Sprachverarbeitung
- Präzise Klangregelung: Präzise Klangeinstellung über Referenz-Audio
- Ambient Audio Processing: originalgetreue Wiedergabe von Umgebungsgeräuschen
- Offene vortrainierte Modelle: Unterstützung für den Einsatz vor Ort und das Training
- Cloud Service API: Bereitstellung bequemer Cloud-Schnittstellenaufrufe
- Personalisiertes Training: unterstützt individuelles Soundmodel-Training
Hilfe verwenden
1. die Systemanforderungen
- Python 3.8 oder höher
- NVIDIA-GPU (empfohlen)
- 8 GB oder mehr Systemspeicher
- CUDA-Unterstützung (empfohlen)
2. die Installationsschritte
- Vorbereitung der Umwelt
# Virtuelle Umgebung erstellen
python -m venv fish-agent-env
Quelle fish-agent-env/bin/activate # Linux/Mac
# oder
fish-agent-env\Scripts\aktivieren # Windows
- Installation von Fish Agent
# Direkte Installation
pip installiert Fisch-Agent
# oder aus dem Quellcode
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .
3 Prozess der Nutzung
3.1 Nutzung von Online-Diensten
Sie können unsere SmartBody-Demo jetzt online ausprobieren, indem Sie der Dokumentation für den englischen Live-Chat sowie für den lokalen englischen und chinesischen Chat folgen.
Bei der Demo handelt es sich um eine frühe Alpha-Testversion, die Inferenzgeschwindigkeit muss noch optimiert werden und es sind noch viele Fehler zu beheben. Wenn Sie einen Fehler finden oder ihn beheben möchten, freuen wir uns über Fragen oder Pull-Requests.
https://fish.audio/zh-CN/demo/live/
3.2 Lokaler Einsatz
- Service-Aktivierung
from fish_agent import VoiceAgent
# Fisch-Agent initialisieren
agent = VoiceAgent()
# Starten Sie den lokalen Dienst
agent.start_server(port=7860)
- Beispiel für das Klonen von Reden
# Referenz-Audio laden
referenz_audio = "pfad/zu/referenz.wav"
agent.load_reference(referenz_audio)
# Erzeugen einer geklonten Stimme
text = "Dies ist eine Teststimme"
ausgabe_pfad = "ausgabe.wav"
agent.generate_speech(text, output_path)
- Echtzeit-Konvertierungseinstellungen
# Start der Echtzeit-Sprachumwandlung
agent.start_realtime_conversion(
input_device=0, # Eingangsgeräte-ID
output_device=1, # output_device_id
referenz_audio="pfad/zu/referenz.wav"
)
4. erweiterte Funktionskonfiguration
4.1 Einstellen der Klangfarbenparameter
- Parameter der Klangregelung:
- Neigung: -12 bis 12
- Sprechgeschwindigkeit: 0,5 bis 2,0
- Gefühlsintensität: 0 bis 1,0
4.2 Stapelverarbeitung
# Stapelverarbeitung von Text
Texte = ["Text1", "Text2", "Text3"]
agent.batch_process(texts, output_dir="outputs/")
4.3 API-Aufrufe
Beispiel für einen #-API-Aufruf
Anfragen importieren
url = "https://speech.fish.audio/api/v1/generate"
Nutzdaten = {
"text": "Zu konvertierender Text", "reference_audio": "base64-kodierte Audiodatei
"referenz_audio": "base64 kodierte Audiodatei"
}
response = requests.post(url, json=payload)
5 Vorsichtsmaßnahmen für die Verwendung
- Die Qualität des Referenztons hat einen erheblichen Einfluss auf die Klonergebnisse, und es wird empfohlen, klare Aufnahmen ohne Hintergrundgeräusche zu verwenden.
- Es wird empfohlen, eine einzelne Textverarbeitung auf höchstens 200 Wörter zu beschränken.
- Echtzeit-Konvertierung erfordert ein gutes Mikrofon für bessere Ergebnisse
- Gewerbliche Nutzung erfordert besondere Genehmigung
- Es wird empfohlen, das Modell regelmäßig zu aktualisieren, um eine optimale Leistung zu erzielen.
6. die Lösung gemeinsamer Probleme
- Probleme bei der Audioausgabe
- Prüfen der Einstellungen des Audioausgabegeräts
- Überprüfen der Konfiguration des Systemvolumens
- Bestätigen Sie die Unterstützung von Audioformaten
- Leistungsoptimierung
- Überprüfen Sie, ob der Grafikprozessor korrekt aktiviert ist.
- Einstellen der Chargenparameter
- Regelmäßige Cache-Reinigung
- Installationsbezogen
- Überprüfung der Python-Versionskompatibilität
- Bestätigen Sie die Konfiguration der CUDA Umgebung
- Betrachten Sie eine conda-Umgebung
- API-Verwendung
- Status der Netzwerkverbindung prüfen
- Bestätigen der API-Berechtigungskonfiguration
- Überprüfen der Serverantwort