Fish Agent: asistente de clonación de voz de IA de extremo a extremo, asistente de diálogo de voz en tiempo real, proyecto derivado de Fish Speech

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

67.2K 00

Introducción general

Discurso del pez Derived Project Fish Agent es un revolucionario sistema de clonación de voz AI de extremo a extremo desarrollado sobre la base de la arquitectura modelo V0.1 3B. Como sistema de procesamiento de clonación del habla de extremo a extremo, su característica más importante es que está diseñado con una innovadora arquitectura semántica sin etiquetas, que puede lograr directamente la conversión de voz a voz sin depender de codificadores/decodificadores semánticos tradicionales como Whisper. Con una latencia ultrabaja (tan solo 150 ms), el sistema es capaz de capturar y generar con precisión información de audio ambiental para lograr efectos de clonación del habla casi en tiempo real.Fish Agent abre descargas de modelos preentrenados y admite el entrenamiento de despliegue local y la invocación de servicios en la nube, lo que proporciona a desarrolladores y usuarios un plan de uso flexible. Con funciones integradas de reconocimiento y síntesis del habla, y un preciso sistema de control del tono, Fish Agent es capaz de crear una experiencia de interacción por voz natural y fluida.

Arquitectura de extremo a extremo, clonación de sonido sin muestras, modelo compacto con 3.000 millones de parámetros, compatibilidad con el multilingüismo y respuesta rápida. Los datos de entrenamiento incluyen 700.000 horas de audio multilingüe. Basado en el preentrenamiento continuado Qwen-2.5-3B-Instruct. El modelo, denominado Fish Agent versión 3B, integra automáticamente los componentes ASR y TTS, eliminando la necesidad de modelos externos y permitiendo un verdadero procesamiento de principio a fin, lo que lo distingue del proceso tradicional de tres etapas (ASR + LLM + TTS).

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Experiencia: https://huggingface.co/spaces/fishaudio/fish-agent

Lista de funciones

Clonación de voz de latencia ultrabaja: tiempo de respuesta de 150 ms, admite conversión de voz en tiempo real.
Arquitectura de marcado sin semántica: una innovadora solución integral de procesamiento del habla
Control preciso del tono: ajuste preciso del tono mediante audio de referencia
Procesamiento de audio ambiental: reproducción de alta fidelidad de la información sonora del entorno
Modelos preformados abiertos: ayuda a la implantación y formación localizadas
API de servicios en la nube: proporciona cómodas llamadas a la interfaz de la nube
Formación personalizada: permite la formación personalizada de modelos de sonido

Utilizar la ayuda

1. Requisitos del sistema

Python 3.8 o superior
GPU NVIDIA (recomendada)
8 GB o más de memoria del sistema
Compatibilidad con CUDA (recomendada)

2. Pasos de la instalación

Preparación medioambiental

# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows

Instalación de Fish Agent

# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. Flujo de utilización

3.1 Utilización de los servicios en línea

Ya puedes probar nuestra demo de SmartBody en línea siguiendo la documentación para el chat en directo en inglés, así como el chat local en inglés y chino.

La demo es una versión de prueba alfa temprana, la velocidad de inferencia necesita ser optimizada y hay muchos bugs por arreglar, si encuentras un bug o te gustaría arreglarlo, estamos encantados de recibir preguntas o pull requests.

https://fish.audio/zh-CN/demo/live/

3.2 Despliegue local

activación del servicio

from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)

Ejemplo de clonación de discursos

# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)

Ajustes de conversión en tiempo real

# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. Configuración de funciones avanzadas

4.1 Ajuste de los parámetros de tono

Parámetros de control de tono:
- Paso: de -12 a 12
- Velocidad del habla: de 0,5 a 2,0
- Intensidad_emoción: 0 a 1,0

4.2 Tratamiento por lotes

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 Llamadas a la API

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5. Precauciones de uso

La calidad del audio de referencia influye considerablemente en los resultados de la clonación, por lo que se recomienda utilizar grabaciones claras y sin ruido de fondo.
Se recomienda que un único tratamiento de texto se limite a 200 palabras o menos.
La conversión en tiempo real requiere un buen micrófono para obtener mejores resultados
El uso comercial requiere una autorización específica
Se recomienda actualizar el modelo periódicamente para obtener un rendimiento óptimo

6. Resolución de problemas comunes

Problemas de salida de audio
- Comprobación de la configuración del dispositivo de salida de audio
- Verificar la configuración del volumen del sistema
- Confirmar la compatibilidad con formatos de audio
optimización del rendimiento
- Compruebe que la GPU está correctamente activada
- Ajuste de los parámetros del lote
- Limpieza periódica de la caché
Instalación
- Verificación de la compatibilidad con la versión de Python
- Confirmar la configuración del entorno CUDA
- Considera un entorno conda
Uso de la API
- Comprobar el estado de la conexión de red
- Confirmación de la configuración de permisos de la API
- Verificar la respuesta del servidor