AI Personal Learning
und praktische Anleitung
讯飞绘镜

Fish Agent: End-to-End-KI-Stimmenklon-Assistent, Echtzeit-Sprachdialog-Assistent, Fish Speech-Spin-off-Projekt

Allgemeine Einführung

Fisch-Rede Der Derived Project Fish Agent ist ein revolutionäres End-to-End-KI-System zum Klonen von Sprache, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Das wichtigste Merkmal dieses Systems ist die innovative semantische taglose Architektur, die eine direkte Umwandlung von Sprache in Sprache ermöglicht, ohne auf traditionelle semantische Encoder/Decoder wie Whisper angewiesen zu sein. Mit einer extrem niedrigen Latenzzeit (bis zu 150 ms) ist das System in der Lage, Audioinformationen aus der Umgebung genau zu erfassen und zu generieren, um Sprachkloneffekte nahezu in Echtzeit zu erzielen.Fish Agent ermöglicht das Herunterladen von vortrainierten Modellen und unterstützt das Training vor Ort und den Aufruf von Cloud-Diensten, was Entwicklern und Benutzern einen flexiblen Nutzungsplan bietet. Mit integrierten Spracherkennungs- und Sprachsynthesefunktionen und einer präzisen Tonsteuerung ist Fish Agent in der Lage, eine natürliche und reibungslose Sprachinteraktion zu ermöglichen.

End-to-End-Architektur, Zero-Sample Sound Cloning, kompaktes Modell mit 3 Milliarden Parametern, Unterstützung für Mehrsprachigkeit und schnelle Reaktion. Die Trainingsdaten umfassen 700.000 Stunden mehrsprachiges Audiomaterial. Basierend auf Qwen-2.5-3B-Instruct fortgesetztes Pre-Training. Das Modell mit dem Namen Fish Agent Version 3B integriert automatisch ASR- und TTS-Komponenten, wodurch externe Modelle überflüssig werden und eine echte End-to-End-Verarbeitung ermöglicht wird, die sich von dem herkömmlichen dreistufigen Prozess (ASR + LLM + TTS) unterscheidet.

Fish Agent:体验端到端AI语音克隆助手,实时语音对话助理(英文)-1

Erfahrung: https://huggingface.co/spaces/fishaudio/fish-agent

 

Funktionsliste

  • Klonen von Stimmen mit extrem geringer Latenz: 150 ms Reaktionszeit, unterstützt Sprachkonvertierung in Echtzeit
  • Semantikfreie Markup-Architektur: eine innovative End-to-End-Lösung für die Sprachverarbeitung
  • Präzise Klangregelung: Präzise Klangeinstellung über Referenz-Audio
  • Ambient Audio Processing: originalgetreue Wiedergabe von Umgebungsgeräuschen
  • Offene vortrainierte Modelle: Unterstützung für den Einsatz vor Ort und das Training
  • Cloud Service API: Bereitstellung bequemer Cloud-Schnittstellenaufrufe
  • Personalisiertes Training: unterstützt individuelles Soundmodel-Training

 

Hilfe verwenden

1. die Systemanforderungen

  • Python 3.8 oder höher
  • NVIDIA-GPU (empfohlen)
  • 8 GB oder mehr Systemspeicher
  • CUDA-Unterstützung (empfohlen)

2. die Installationsschritte

  1. Vorbereitung der Umwelt
# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows
  1. Installation von Fish Agent
# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. der Nutzungsfluss

3.1 Nutzung von Online-Diensten

Sie können unsere SmartBody-Demo jetzt online ausprobieren, indem Sie der Dokumentation für den englischen Live-Chat sowie für den lokalen englischen und chinesischen Chat folgen.


Bei der Demo handelt es sich um eine frühe Alpha-Testversion, die Inferenzgeschwindigkeit muss noch optimiert werden und es sind noch viele Fehler zu beheben. Wenn Sie einen Fehler finden oder ihn beheben möchten, freuen wir uns über Fragen oder Pull-Requests.

https://fish.audio/zh-CN/demo/live/

 

3.2 Lokaler Einsatz

  1. Service-Aktivierung
from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)
  1. Beispiel für das Klonen von Reden
# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)
  1. Echtzeit-Konvertierungseinstellungen
# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. erweiterte Funktionskonfiguration

4.1 Einstellen der Klangfarbenparameter

  • Parameter der Klangregelung:
    • Neigung: -12 bis 12
    • Sprechgeschwindigkeit: 0,5 bis 2,0
    • Gefühlsintensität: 0 bis 1,0

4.2 Stapelverarbeitung

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 API-Aufrufe

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5 Vorsichtsmaßnahmen für die Verwendung

  • Die Qualität des Referenztons hat einen erheblichen Einfluss auf die Klonergebnisse, und es wird empfohlen, klare Aufnahmen ohne Hintergrundgeräusche zu verwenden.
  • Es wird empfohlen, eine einzelne Textverarbeitung auf höchstens 200 Wörter zu beschränken.
  • Echtzeit-Konvertierung erfordert ein gutes Mikrofon für bessere Ergebnisse
  • Gewerbliche Nutzung erfordert besondere Genehmigung
  • Es wird empfohlen, das Modell regelmäßig zu aktualisieren, um eine optimale Leistung zu erzielen.

6. die Lösung gemeinsamer Probleme

  1. Probleme bei der Audioausgabe
    • Prüfen der Einstellungen des Audioausgabegeräts
    • Überprüfen der Konfiguration des Systemvolumens
    • Bestätigen Sie die Unterstützung von Audioformaten
  2. Leistungsoptimierung
    • Überprüfen Sie, ob der Grafikprozessor korrekt aktiviert ist.
    • Einstellen der Chargenparameter
    • Regelmäßige Cache-Reinigung
  3. Installationsbezogen
    • Überprüfung der Python-Versionskompatibilität
    • Bestätigen Sie die Konfiguration der CUDA Umgebung
    • Betrachten Sie eine conda-Umgebung
  4. API-Verwendung
    • Status der Netzwerkverbindung prüfen
    • Bestätigen der API-Berechtigungskonfiguration
    • Überprüfen der Serverantwort
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Fish Agent: End-to-End-KI-Stimmenklon-Assistent, Echtzeit-Sprachdialog-Assistent, Fish Speech-Spin-off-Projekt
de_DEDeutsch