Fish Agent: End-to-End-KI-Stimmenklon-Assistent, Echtzeit-Sprachdialog-Assistent, Fish Speech-Spin-off-Projekt

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

Fisch-Rede Der Derived Project Fish Agent ist ein revolutionäres End-to-End-KI-System zum Klonen von Sprache, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Das wichtigste Merkmal dieses Systems ist die innovative semantische taglose Architektur, die eine direkte Umwandlung von Sprache in Sprache ermöglicht, ohne auf traditionelle semantische Encoder/Decoder wie Whisper angewiesen zu sein. Mit einer extrem niedrigen Latenzzeit (bis zu 150 ms) ist das System in der Lage, Audioinformationen aus der Umgebung genau zu erfassen und zu generieren, um Sprachkloneffekte nahezu in Echtzeit zu erzielen.Fish Agent ermöglicht das Herunterladen von vortrainierten Modellen und unterstützt das Training vor Ort und den Aufruf von Cloud-Diensten, was Entwicklern und Benutzern einen flexiblen Nutzungsplan bietet. Mit integrierten Spracherkennungs- und Sprachsynthesefunktionen und einer präzisen Tonsteuerung ist Fish Agent in der Lage, eine natürliche und reibungslose Sprachinteraktion zu ermöglichen.

End-to-End-Architektur, Zero-Sample Sound Cloning, kompaktes Modell mit 3 Milliarden Parametern, Unterstützung für Mehrsprachigkeit und schnelle Reaktion. Die Trainingsdaten umfassen 700.000 Stunden mehrsprachiges Audiomaterial. Basierend auf Qwen-2.5-3B-Instruct fortgesetztes Pre-Training. Das Modell mit dem Namen Fish Agent Version 3B integriert automatisch ASR- und TTS-Komponenten, wodurch externe Modelle überflüssig werden und eine echte End-to-End-Verarbeitung ermöglicht wird, die sich von dem herkömmlichen dreistufigen Prozess (ASR + LLM + TTS) unterscheidet.

Fish Agent: End-to-End-KI-Sprachklon-Assistent, Echtzeit-Sprachdialog-Assistent (Englisch)-1

Erfahrung: https://huggingface.co/spaces/fishaudio/fish-agent

Funktionsliste

Klonen von Stimmen mit extrem geringer Latenz: 150 ms Reaktionszeit, unterstützt Sprachkonvertierung in Echtzeit
Semantikfreie Markup-Architektur: eine innovative End-to-End-Lösung für die Sprachverarbeitung
Präzise Klangregelung: Präzise Klangeinstellung über Referenz-Audio
Ambient Audio Processing: originalgetreue Wiedergabe von Umgebungsgeräuschen
Offene vortrainierte Modelle: Unterstützung für den Einsatz vor Ort und das Training
Cloud Service API: Bereitstellung bequemer Cloud-Schnittstellenaufrufe
Personalisiertes Training: unterstützt individuelles Soundmodel-Training

Hilfe verwenden

1. die Systemanforderungen

Python 3.8 oder höher
NVIDIA-GPU (empfohlen)
8 GB oder mehr Systemspeicher
CUDA-Unterstützung (empfohlen)

2. die Installationsschritte

Vorbereitung der Umwelt

# Virtuelle Umgebung erstellen
python -m venv fish-agent-env
Quelle fish-agent-env/bin/activate # Linux/Mac
# oder
fish-agent-env\Scripts\aktivieren # Windows

Installation von Fish Agent

# Direkte Installation
pip installiert Fisch-Agent
# oder aus dem Quellcode
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3 Prozess der Nutzung

3.1 Nutzung von Online-Diensten

Sie können unsere SmartBody-Demo jetzt online ausprobieren, indem Sie der Dokumentation für den englischen Live-Chat sowie für den lokalen englischen und chinesischen Chat folgen.

Bei der Demo handelt es sich um eine frühe Alpha-Testversion, die Inferenzgeschwindigkeit muss noch optimiert werden und es sind noch viele Fehler zu beheben. Wenn Sie einen Fehler finden oder ihn beheben möchten, freuen wir uns über Fragen oder Pull-Requests.

https://fish.audio/zh-CN/demo/live/

3.2 Lokaler Einsatz

Service-Aktivierung

from fish_agent import VoiceAgent
# Fisch-Agent initialisieren
agent = VoiceAgent()
# Starten Sie den lokalen Dienst
agent.start_server(port=7860)

Beispiel für das Klonen von Reden

# Referenz-Audio laden
referenz_audio = "pfad/zu/referenz.wav"
agent.load_reference(referenz_audio)
# Erzeugen einer geklonten Stimme
text = "Dies ist eine Teststimme"
ausgabe_pfad = "ausgabe.wav"
agent.generate_speech(text, output_path)

Echtzeit-Konvertierungseinstellungen

# Start der Echtzeit-Sprachumwandlung
agent.start_realtime_conversion(
input_device=0, # Eingangsgeräte-ID
output_device=1, # output_device_id
referenz_audio="pfad/zu/referenz.wav"
)

4. erweiterte Funktionskonfiguration

4.1 Einstellen der Klangfarbenparameter

Parameter der Klangregelung:
- Neigung: -12 bis 12
- Sprechgeschwindigkeit: 0,5 bis 2,0
- Gefühlsintensität: 0 bis 1,0

4.2 Stapelverarbeitung

# Stapelverarbeitung von Text
Texte = ["Text1", "Text2", "Text3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 API-Aufrufe

Beispiel für einen #-API-Aufruf
Anfragen importieren
url = "https://speech.fish.audio/api/v1/generate"
Nutzdaten = {
"text": "Zu konvertierender Text", "reference_audio": "base64-kodierte Audiodatei
"referenz_audio": "base64 kodierte Audiodatei"
}
response = requests.post(url, json=payload)

5 Vorsichtsmaßnahmen für die Verwendung

Die Qualität des Referenztons hat einen erheblichen Einfluss auf die Klonergebnisse, und es wird empfohlen, klare Aufnahmen ohne Hintergrundgeräusche zu verwenden.
Es wird empfohlen, eine einzelne Textverarbeitung auf höchstens 200 Wörter zu beschränken.
Echtzeit-Konvertierung erfordert ein gutes Mikrofon für bessere Ergebnisse
Gewerbliche Nutzung erfordert besondere Genehmigung
Es wird empfohlen, das Modell regelmäßig zu aktualisieren, um eine optimale Leistung zu erzielen.

6. die Lösung gemeinsamer Probleme

Probleme bei der Audioausgabe
- Prüfen der Einstellungen des Audioausgabegeräts
- Überprüfen der Konfiguration des Systemvolumens
- Bestätigen Sie die Unterstützung von Audioformaten
Leistungsoptimierung
- Überprüfen Sie, ob der Grafikprozessor korrekt aktiviert ist.
- Einstellen der Chargenparameter
- Regelmäßige Cache-Reinigung
Installationsbezogen
- Überprüfung der Python-Versionskompatibilität
- Bestätigen Sie die Konfiguration der CUDA Umgebung
- Betrachten Sie eine conda-Umgebung
API-Verwendung
- Status der Netzwerkverbindung prüfen
- Bestätigen der API-Berechtigungskonfiguration
- Überprüfen der Serverantwort