综合介绍
Fish Speech 衍生项目 Fish Agent 是一款革命性的端到端AI语音克隆系统,基于V0.1 3B模型架构开发。作为一个完全端到端的语音克隆处理系统,其最大特点是采用创新的无语义标记架构设计,无需依赖Whisper等传统语义编码器/解码器,可直接实现语音到语音的转换。系统具备超低延迟特性(低至150毫秒),能够准确捕捉和生成环境音频信息,实现近乎实时的语音克隆效果。Fish Agent开放了预训练模型下载,支持本地部署训练和云服务调用,为开发者和用户提供了灵活的使用方案。通过集成的语音识别和语音合成功能,配合精确的音色控制系统,Fish Agent能够打造出自然流畅的语音交互体验。
端到端架构、零样本声音克隆、30亿参数的紧凑模型,支持多语言和快速响应。训练数据包括70万小时的多语言音频。基于Qwen-2.5-3B-Instruct继续预训练而来。模型名称为 Fish Agent 3B版,自动集成了ASR和TTS组件,无需外部模型,实现了真正的端到端处理,区别于传统的三阶段(ASR + LLM + TTS)流程。
功能列表
- 超低延迟语音克隆:150毫秒响应速度,支持实时声音转换
- 无语义标记架构:创新的端到端语音处理方案
- 精准音色控制:通过参考音频实现精确音色调节
- 环境音频处理:高保真还原环境声音信息
- 开放预训练模型:支持本地化部署和训练
- 云服务API:提供便捷的云端接口调用
- 个性化训练:支持自定义声音模型训练
使用帮助
1. 系统要求
- Python 3.8或更高版本
- NVIDIA GPU(推荐)
- 8GB以上系统内存
- CUDA支持(推荐)
2. 安装步骤
- 环境准备
# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate # Linux/Mac
# 或
fish-agent-env\Scripts\activate # Windows
- 安装Fish Agent
# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .
3. 使用流程
3.1 在线服务使用
您现在可以通过遵循文档在线尝试我们的智能体演示,用于即时英语聊天以及本地英语和中文聊天。
演示版是一个早期 alpha 测试版本,推理速度需要优化,还有很多待修复的 bug。如果您发现了 bug 或想修复它,我们非常乐意接收问题或拉取请求。
https://fish.audio/zh-CN/demo/live/
3.2 本地部署
- 服务启动
from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)
- 语音克隆示例
# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)
- 实时转换设置
# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0, # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)
4. 高级功能配置
4.1 音色参数调节
- 音色控制参数:
- 音调(pitch):-12至12
- 语速(speed):0.5至2.0
- 情感强度(emotion_intensity):0至1.0
4.2 批量处理
# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")
4.3 API调用
# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)
5. 使用注意事项
- 参考音频质量对克隆效果影响显著,建议使用无背景噪音的清晰录音
- 单次处理文本建议控制在200字以内
- 实时转换需要使用优质麦克风获得更好效果
- 商业用途需要获取专门授权
- 建议定期更新模型获得最佳性能表现
6. 常见问题解决
- 音频输出问题
- 检查音频输出设备设置
- 验证系统音量配置
- 确认音频格式支持
- 性能优化
- 确认GPU正确启用
- 调整批处理参数
- 定期清理缓存
- 安装相关
- 验证Python版本兼容性
- 确认CUDA环境配置
- 考虑使用conda环境
- API使用
- 检查网络连接状态
- 确认API权限配置
- 验证服务器响应