Zonos: herramientas de síntesis y clonación de voz de alta calidad
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 2.2K 00
Introducción general
Zonos es una herramienta de código abierto para la síntesis y clonación del habla desarrollada por Zyphra. Transformador La función de clonación del habla de Zonos genera una salida de habla de alta calidad tras sólo unos segundos de audio de referencia. La herramienta es compatible con varios idiomas, como inglés, japonés, chino, francés y alemán, y ofrece un control preciso de la calidad del audio y la emoción. La función de clonación del habla de Zonos genera un habla de aspecto muy natural tras proporcionar solo unos segundos de audio de referencia. Los usuarios pueden obtener los pesos del modelo y el código de muestra a través de GitHub y probarlo en Huggingface.

Lista de funciones
- Clonación de voz TTS de muestra ceroEntrada de texto y muestra de locutor de 10-30 segundos para generar una salida de voz de alta calidad.
- Entrada de prefijo de audio: Añade prefijos de texto y audio para una coincidencia de locutores más rica.
- Soporte multilingüeCompatible con inglés, japonés, chino, francés y alemán.
- Calidad de audio y control de las emocionesPermite controlar con precisión muchos aspectos del audio generado, como la velocidad del habla, la variación del tono, la calidad del audio y la emoción (por ejemplo, felicidad, miedo, tristeza y enfado).
- Generación de voz en tiempo real: Admite la generación en tiempo real de habla de alta fidelidad.
Utilizar la ayuda
Proceso de instalación
- proyecto de clonaciónEjecuta el siguiente comando en un terminal para clonar el proyecto Zonos:
bash
git clone https://github.com/Zyphra/Zonos.git
cd Zonos - Instalación de dependenciasUtilice el siguiente comando para instalar las dependencias necesarias de Python:
bash
pip install -r requirements.txt - Descargar modelos de pesosDescarga los pesos necesarios del modelo de Huggingface y colócalos en el directorio del proyecto.
Utilización
- Modelos de cargaCarga el modelo Zonos en el entorno Python:
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
- Generar discurso: Proporcione muestras de texto y hablantes para generar la salida de voz:
python
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)
cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate) - Uso de la interfaz de Gradio: Se recomienda la interfaz Gradio para la generación de voz:
bash
Esto genera un
uv run gradio_interface.py
# 或者
python gradio_interface.pysample.wav
guardado en el directorio raíz del proyecto.
Flujo detallado de funcionamiento de las funciones
- Clonación de voz TTS de muestra cero::
- Introduciendo el texto deseado y una muestra de hablante de 10-30 segundos, el modelo generará una salida de voz de alta calidad.
- Entrada de prefijo de audio::
- Añada prefijos de texto y audio para enriquecer la coincidencia de locutores. Por ejemplo, los prefijos de audio de susurro pueden utilizarse para generar efectos de susurro.
- Soporte multilingüe::
- Seleccione el idioma deseado (por ejemplo, inglés, japonés, chino, francés o alemán) y el modelo generará la salida de voz en el idioma correspondiente.
- Calidad de audio y control de las emociones::
- Utiliza la función Configuración condicional del modelo para controlar meticulosamente todos los aspectos del audio generado, como la velocidad del habla, la variación del tono, la calidad del audio y la emoción (por ejemplo, felicidad, miedo, tristeza y enfado).
- Generación de voz en tiempo real::
- Utilice la interfaz de Gradio u otros métodos de generación en tiempo real para generar rápidamente habla de alta fidelidad.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...