Fish Agent: asistente de clonación de voz de IA de extremo a extremo, asistente de diálogo de voz en tiempo real, proyecto derivado de Fish Speech
Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial 12.6K 00
Introducción general
Discurso del pez Derived Project Fish Agent es un revolucionario sistema de clonación de voz AI de extremo a extremo desarrollado sobre la base de la arquitectura modelo V0.1 3B. Como sistema de procesamiento de clonación del habla de extremo a extremo, su característica más importante es que está diseñado con una innovadora arquitectura semántica sin etiquetas, que puede lograr directamente la conversión de voz a voz sin depender de codificadores/decodificadores semánticos tradicionales como Whisper. Con una latencia ultrabaja (tan solo 150 ms), el sistema es capaz de capturar y generar con precisión información de audio ambiental para lograr efectos de clonación del habla casi en tiempo real.Fish Agent abre descargas de modelos preentrenados y admite el entrenamiento de despliegue local y la invocación de servicios en la nube, lo que proporciona a desarrolladores y usuarios un plan de uso flexible. Con funciones integradas de reconocimiento y síntesis del habla, y un preciso sistema de control del tono, Fish Agent es capaz de crear una experiencia de interacción por voz natural y fluida.
Arquitectura de extremo a extremo, clonación de sonido sin muestras, modelo compacto con 3.000 millones de parámetros, compatibilidad con el multilingüismo y respuesta rápida. Los datos de entrenamiento incluyen 700.000 horas de audio multilingüe. Basado en el preentrenamiento continuado Qwen-2.5-3B-Instruct. El modelo, denominado Fish Agent versión 3B, integra automáticamente los componentes ASR y TTS, eliminando la necesidad de modelos externos y permitiendo un verdadero procesamiento de principio a fin, lo que lo distingue del proceso tradicional de tres etapas (ASR + LLM + TTS).

Experiencia: https://huggingface.co/spaces/fishaudio/fish-agent
Lista de funciones
- Clonación de voz de latencia ultrabaja: tiempo de respuesta de 150 ms, admite conversión de voz en tiempo real.
- Arquitectura de marcado sin semántica: una innovadora solución integral de procesamiento del habla
- Control preciso del tono: ajuste preciso del tono mediante audio de referencia
- Procesamiento de audio ambiental: reproducción de alta fidelidad de la información sonora del entorno
- Modelos preformados abiertos: ayuda a la implantación y formación localizadas
- API de servicios en la nube: proporciona cómodas llamadas a la interfaz de la nube
- Formación personalizada: permite la formación personalizada de modelos de sonido
Utilizar la ayuda
1. Requisitos del sistema
- Python 3.8 o superior
- GPU NVIDIA (recomendada)
- 8 GB o más de memoria del sistema
- Compatibilidad con CUDA (recomendada)
2. Pasos de la instalación
- Preparación medioambiental
# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate # Linux/Mac
# 或
fish-agent-env\Scripts\activate # Windows
- Instalación de Fish Agent
# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .
3. Flujo de utilización
3.1 Utilización de los servicios en línea
Ya puedes probar nuestra demo de SmartBody en línea siguiendo la documentación para el chat en directo en inglés, así como el chat local en inglés y chino.
La demo es una versión de prueba alfa temprana, la velocidad de inferencia necesita ser optimizada y hay muchos bugs por arreglar, si encuentras un bug o te gustaría arreglarlo, estamos encantados de recibir preguntas o pull requests.
https://fish.audio/zh-CN/demo/live/
3.2 Despliegue local
- activación del servicio
from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)
- Ejemplo de clonación de discursos
# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)
- Ajustes de conversión en tiempo real
# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0, # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)
4. Configuración de funciones avanzadas
4.1 Ajuste de los parámetros de tono
- Parámetros de control de tono:
- Paso: de -12 a 12
- Velocidad del habla: de 0,5 a 2,0
- Intensidad_emoción: 0 a 1,0
4.2 Tratamiento por lotes
# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")
4.3 Llamadas a la API
# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)
5. Precauciones de uso
- La calidad del audio de referencia influye considerablemente en los resultados de la clonación, por lo que se recomienda utilizar grabaciones claras y sin ruido de fondo.
- Se recomienda que un único tratamiento de texto se limite a 200 palabras o menos.
- La conversión en tiempo real requiere un buen micrófono para obtener mejores resultados
- El uso comercial requiere una autorización específica
- Se recomienda actualizar el modelo periódicamente para obtener un rendimiento óptimo
6. Resolución de problemas comunes
- Problemas de salida de audio
- Comprobación de la configuración del dispositivo de salida de audio
- Verificar la configuración del volumen del sistema
- Confirmar la compatibilidad con formatos de audio
- optimización del rendimiento
- Compruebe que la GPU está correctamente activada
- Ajuste de los parámetros del lote
- Limpieza periódica de la caché
- Instalación
- Verificación de la compatibilidad con la versión de Python
- Confirmar la configuración del entorno CUDA
- Considera un entorno conda
- Uso de la API
- Comprobar el estado de la conexión de red
- Confirmación de la configuración de permisos de la API
- Verificar la respuesta del servidor
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...