Zonos: herramientas de síntesis y clonación de voz de alta calidad

Introducción general

Zonos es una herramienta de código abierto para la síntesis y clonación del habla desarrollada por Zyphra. Transformador La función de clonación del habla de Zonos genera una salida de habla de alta calidad tras sólo unos segundos de audio de referencia. La herramienta es compatible con varios idiomas, como inglés, japonés, chino, francés y alemán, y ofrece un control preciso de la calidad del audio y la emoción. La función de clonación del habla de Zonos genera un habla de aspecto muy natural tras proporcionar solo unos segundos de audio de referencia. Los usuarios pueden obtener los pesos del modelo y el código de muestra a través de GitHub y probarlo en Huggingface.

Zonos:高质量语音合成与语音克隆工具

 

Lista de funciones

  • Clonación de voz TTS de muestra ceroEntrada de texto y muestra de locutor de 10-30 segundos para generar una salida de voz de alta calidad.
  • Entrada de prefijo de audio: Añade prefijos de texto y audio para una coincidencia de locutores más rica.
  • Soporte multilingüeCompatible con inglés, japonés, chino, francés y alemán.
  • Calidad de audio y control de las emocionesPermite controlar con precisión muchos aspectos del audio generado, como la velocidad del habla, la variación del tono, la calidad del audio y la emoción (por ejemplo, felicidad, miedo, tristeza y enfado).
  • Generación de voz en tiempo real: Admite la generación en tiempo real de habla de alta fidelidad.

 

Utilizar la ayuda

Proceso de instalación

  1. proyecto de clonaciónEjecuta el siguiente comando en un terminal para clonar el proyecto Zonos: bash
    git clone https://github.com/Zyphra/Zonos.git
    cd Zonos
  2. Instalación de dependenciasUtilice el siguiente comando para instalar las dependencias necesarias de Python: bash
    pip install -r requirements.txt
  3. Descargar modelos de pesosDescarga los pesos necesarios del modelo de Huggingface y colócalos en el directorio del proyecto.

Utilización

  1. Modelos de cargaCarga el modelo Zonos en el entorno Python:
    import torch
    import torchaudio
    from zonos.model import Zonos
    from zonos.conditioning import make_cond_dict
    model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
    
  2. Generar discurso: Proporcione muestras de texto y hablantes para generar la salida de voz: python
    wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
    speaker = model.make_speaker_embedding(wav, sampling_rate)
    cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
    conditioning = model.prepare_conditioning(cond_dict)
    codes = model.generate(conditioning)
    wavs = model.autoencoder.decode(codes).cpu()
    torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
  3. Uso de la interfaz de Gradio: Se recomienda la interfaz Gradio para la generación de voz: bash
    uv run gradio_interface.py
    # 或者
    python gradio_interface.py
    Esto genera un sample.wav guardado en el directorio raíz del proyecto.

Flujo detallado de funcionamiento de las funciones

  1. Clonación de voz TTS de muestra cero::
    • Introduciendo el texto deseado y una muestra de hablante de 10-30 segundos, el modelo generará una salida de voz de alta calidad.
  2. Entrada de prefijo de audio::
    • Añada prefijos de texto y audio para enriquecer la coincidencia de locutores. Por ejemplo, los prefijos de audio de susurro pueden utilizarse para generar efectos de susurro.
  3. Soporte multilingüe::
    • Seleccione el idioma deseado (por ejemplo, inglés, japonés, chino, francés o alemán) y el modelo generará la salida de voz en el idioma correspondiente.
  4. Calidad de audio y control de las emociones::
    • Utiliza la función Configuración condicional del modelo para controlar meticulosamente todos los aspectos del audio generado, como la velocidad del habla, la variación del tono, la calidad del audio y la emoción (por ejemplo, felicidad, miedo, tristeza y enfado).
  5. Generación de voz en tiempo real::
    • Utilice la interfaz de Gradio u otros métodos de generación en tiempo real para generar rápidamente habla de alta fidelidad.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...