Fish Agent: End-to-End-KI-Stimmenklon-Assistent, Echtzeit-Sprachdialog-Assistent, Fish Speech-Spin-off-Projekt

Neueste AI-RessourcenGeschrieben vor 7 Monaten AI-Austauschkreis

2.3K 00

Allgemeine Einführung

Fisch-Rede Der Derived Project Fish Agent ist ein revolutionäres End-to-End-KI-System zum Klonen von Sprache, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Das wichtigste Merkmal dieses Systems ist die innovative semantische taglose Architektur, die eine direkte Umwandlung von Sprache in Sprache ermöglicht, ohne auf traditionelle semantische Encoder/Decoder wie Whisper angewiesen zu sein. Mit einer extrem niedrigen Latenzzeit (bis zu 150 ms) ist das System in der Lage, Audioinformationen aus der Umgebung genau zu erfassen und zu generieren, um Sprachkloneffekte nahezu in Echtzeit zu erzielen.Fish Agent ermöglicht das Herunterladen von vortrainierten Modellen und unterstützt das Training vor Ort und den Aufruf von Cloud-Diensten, was Entwicklern und Benutzern einen flexiblen Nutzungsplan bietet. Mit integrierten Spracherkennungs- und Sprachsynthesefunktionen und einer präzisen Tonsteuerung ist Fish Agent in der Lage, eine natürliche und reibungslose Sprachinteraktion zu ermöglichen.

End-to-End-Architektur, Zero-Sample Sound Cloning, kompaktes Modell mit 3 Milliarden Parametern, Unterstützung für Mehrsprachigkeit und schnelle Reaktion. Die Trainingsdaten umfassen 700.000 Stunden mehrsprachiges Audiomaterial. Basierend auf Qwen-2.5-3B-Instruct fortgesetztes Pre-Training. Das Modell mit dem Namen Fish Agent Version 3B integriert automatisch ASR- und TTS-Komponenten, wodurch externe Modelle überflüssig werden und eine echte End-to-End-Verarbeitung ermöglicht wird, die sich von dem herkömmlichen dreistufigen Prozess (ASR + LLM + TTS) unterscheidet.

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Erfahrung: https://huggingface.co/spaces/fishaudio/fish-agent

Funktionsliste

Klonen von Stimmen mit extrem geringer Latenz: 150 ms Reaktionszeit, unterstützt Sprachkonvertierung in Echtzeit
Semantikfreie Markup-Architektur: eine innovative End-to-End-Lösung für die Sprachverarbeitung
Präzise Klangregelung: Präzise Klangeinstellung über Referenz-Audio
Ambient Audio Processing: originalgetreue Wiedergabe von Umgebungsgeräuschen
Offene vortrainierte Modelle: Unterstützung für den Einsatz vor Ort und das Training
Cloud Service API: Bereitstellung bequemer Cloud-Schnittstellenaufrufe
Personalisiertes Training: unterstützt individuelles Soundmodel-Training

Hilfe verwenden

1. die Systemanforderungen

Python 3.8 oder höher
NVIDIA-GPU (empfohlen)
8 GB oder mehr Systemspeicher
CUDA-Unterstützung (empfohlen)

2. die Installationsschritte

Vorbereitung der Umwelt

# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows

Installation von Fish Agent

# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. der Nutzungsfluss

3.1 Nutzung von Online-Diensten

Sie können unsere SmartBody-Demo jetzt online ausprobieren, indem Sie der Dokumentation für den englischen Live-Chat sowie für den lokalen englischen und chinesischen Chat folgen.

Bei der Demo handelt es sich um eine frühe Alpha-Testversion, die Inferenzgeschwindigkeit muss noch optimiert werden und es sind noch viele Fehler zu beheben. Wenn Sie einen Fehler finden oder ihn beheben möchten, freuen wir uns über Fragen oder Pull-Requests.

https://fish.audio/zh-CN/demo/live/

3.2 Lokaler Einsatz

Service-Aktivierung

from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)

Beispiel für das Klonen von Reden

# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)

Echtzeit-Konvertierungseinstellungen

# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. erweiterte Funktionskonfiguration

4.1 Einstellen der Klangfarbenparameter

Parameter der Klangregelung:
- Neigung: -12 bis 12
- Sprechgeschwindigkeit: 0,5 bis 2,0
- Gefühlsintensität: 0 bis 1,0

4.2 Stapelverarbeitung

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 API-Aufrufe

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5 Vorsichtsmaßnahmen für die Verwendung

Die Qualität des Referenztons hat einen erheblichen Einfluss auf die Klonergebnisse, und es wird empfohlen, klare Aufnahmen ohne Hintergrundgeräusche zu verwenden.
Es wird empfohlen, eine einzelne Textverarbeitung auf höchstens 200 Wörter zu beschränken.
Echtzeit-Konvertierung erfordert ein gutes Mikrofon für bessere Ergebnisse
Gewerbliche Nutzung erfordert besondere Genehmigung
Es wird empfohlen, das Modell regelmäßig zu aktualisieren, um eine optimale Leistung zu erzielen.

6. die Lösung gemeinsamer Probleme

Probleme bei der Audioausgabe
- Prüfen der Einstellungen des Audioausgabegeräts
- Überprüfen der Konfiguration des Systemvolumens
- Bestätigen Sie die Unterstützung von Audioformaten
Leistungsoptimierung
- Überprüfen Sie, ob der Grafikprozessor korrekt aktiviert ist.
- Einstellen der Chargenparameter
- Regelmäßige Cache-Reinigung
Installationsbezogen
- Überprüfung der Python-Versionskompatibilität
- Bestätigen Sie die Konfiguration der CUDA Umgebung
- Betrachten Sie eine conda-Umgebung
API-Verwendung
- Status der Netzwerkverbindung prüfen
- Bestätigen der API-Berechtigungskonfiguration
- Überprüfen der Serverantwort