Fish Agent : assistant de clonage vocal IA de bout en bout, assistant de dialogue vocal en temps réel, projet dérivé de Fish Speech

Dernières ressources sur l'IAPosté il y a 9 mois Cercle de partage de l'IA

21.3K 00

Introduction générale

Discours sur les poissons Le projet dérivé Fish Agent est un système révolutionnaire de clonage de la parole de bout en bout développé sur la base de l'architecture du modèle V0.1 3B. En tant que système de traitement de clonage de la parole de bout en bout, sa caractéristique la plus importante est qu'il est conçu avec une architecture innovante sans étiquette sémantique, qui peut directement réaliser la conversion parole-parole sans dépendre des encodeurs/décodeurs sémantiques traditionnels tels que Whisper. Avec une latence ultra-faible (150 ms seulement), le système est capable de capturer et de générer avec précision des informations audio ambiantes pour obtenir des effets de clonage de la parole en temps quasi réel. Grâce à ses fonctions intégrées de reconnaissance et de synthèse vocales et à son système précis de contrôle de la tonalité, Fish Agent est en mesure de créer une expérience d'interaction vocale naturelle et fluide.

Architecture de bout en bout, clonage sonore sans échantillon, modèle compact avec 3 milliards de paramètres, prise en charge du multilinguisme et réponse rapide. Les données de formation comprennent 700 000 heures d'audio multilingue. Basé sur Qwen-2.5-3B-Instruct, pré-entraînement continu. Le modèle, appelé Fish Agent version 3B, intègre automatiquement les composants ASR et TTS, éliminant le besoin de modèles externes et permettant un véritable traitement de bout en bout, ce qui le distingue du processus traditionnel en trois étapes (ASR + LLM + TTS).

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Expérience : https://huggingface.co/spaces/fishaudio/fish-agent

Liste des fonctions

Clonage vocal à très faible latence : temps de réponse de 150 ms, prise en charge de la conversion vocale en temps réel
Architecture de balisage sans sémantique : une solution innovante de traitement de la parole de bout en bout
Contrôle précis de la tonalité : réglage précis de la tonalité par l'intermédiaire de l'audio de référence
Traitement du son ambiant : reproduction haute fidélité des informations sonores de l'environnement
Modèles pré-entraînés ouverts : aide au déploiement et à la formation au niveau local
API de service en nuage : fournir des appels d'interface en nuage pratiques
Formation personnalisée : permet une formation personnalisée au modèle sonore

Utiliser l'aide

1) Exigences du système

Python 3.8 ou supérieur
GPU NVIDIA (recommandé)
8 Go ou plus de mémoire système
Prise en charge de CUDA (recommandée)

2. les étapes de l'installation

Préparation de l'environnement

# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows

Installation de l'agent poisson

# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. le processus d'utilisation

3.1 Utilisation des services en ligne

Vous pouvez maintenant essayer notre démo SmartBody en ligne en suivant la documentation pour le chat en anglais en direct ainsi que le chat local en anglais et en chinois.

La démo est une version alpha test précoce, la vitesse d'inférence doit être optimisée et il y a de nombreux bugs à corriger, si vous trouvez un bug ou voulez le corriger, nous sommes heureux de recevoir des questions ou des pull requests.

https://fish.audio/zh-CN/demo/live/

3.2 Déploiement local

activation du service

from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)

Exemple de clonage de discours

# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)

Paramètres de conversion en temps réel

# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. configuration des fonctions avancées

4.1 Réglage des paramètres de tonalité

Paramètres de contrôle de la tonalité :
- Angle d'inclinaison : -12 à 12
- Vitesse d'élocution : 0,5 à 2,0
- Intensité de l'émotion : 0 à 1,0

4.2 Traitement par lots

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 Appels API

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5. précautions d'emploi

La qualité audio de référence a un impact significatif sur les résultats du clonage, et il est recommandé d'utiliser des enregistrements clairs sans bruit de fond.
Il est recommandé de ne pas dépasser 200 mots par traitement de texte.
La conversion en temps réel nécessite un bon microphone pour de meilleurs résultats
L'utilisation commerciale nécessite une autorisation spécifique
Il est recommandé de mettre à jour le modèle régulièrement pour obtenir des performances optimales.

6. la résolution des problèmes courants

Problèmes de sortie audio
- Vérification des paramètres du périphérique de sortie audio
- Vérifier la configuration du volume du système
- Confirmer la prise en charge du format audio
l'optimisation des performances
- Vérifier que le GPU est correctement activé
- Réglage des paramètres du lot
- Nettoyage régulier du cache
L'installation
- Vérification de la compatibilité des versions de Python
- Confirmer la configuration de l'environnement CUDA
- Considérons un environnement conda
Utilisation de l'API
- Vérifier l'état de la connexion au réseau
- Confirmation de la configuration des autorisations API
- Vérifier la réponse du serveur