Zonos: herramientas de síntesis y clonación de voz de alta calidad

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

65.7K 00

Introducción general

Zonos es una herramienta de código abierto para la síntesis y clonación del habla desarrollada por Zyphra. Transformador La función de clonación del habla de Zonos genera una salida de habla de alta calidad tras sólo unos segundos de audio de referencia. La herramienta es compatible con varios idiomas, como inglés, japonés, chino, francés y alemán, y ofrece un control preciso de la calidad del audio y la emoción. La función de clonación del habla de Zonos genera un habla de aspecto muy natural tras proporcionar solo unos segundos de audio de referencia. Los usuarios pueden obtener los pesos del modelo y el código de muestra a través de GitHub y probarlo en Huggingface.

Lista de funciones

Clonación de voz TTS de muestra ceroEntrada de texto y muestra de locutor de 10-30 segundos para generar una salida de voz de alta calidad.
Entrada de prefijo de audio: Añade prefijos de texto y audio para una coincidencia de locutores más rica.
Soporte multilingüeCompatible con inglés, japonés, chino, francés y alemán.
Calidad de audio y control de las emocionesPermite controlar con precisión muchos aspectos del audio generado, como la velocidad del habla, la variación del tono, la calidad del audio y la emoción (por ejemplo, felicidad, miedo, tristeza y enfado).
Generación de voz en tiempo real: Admite la generación en tiempo real de habla de alta fidelidad.

Utilizar la ayuda

Proceso de instalación

proyecto de clonaciónEjecuta el siguiente comando en un terminal para clonar el proyecto Zonos: bash git clone https://github.com/Zyphra/Zonos.git cd Zonos
Instalación de dependenciasUtilice el siguiente comando para instalar las dependencias necesarias de Python: bash pip install -r requirements.txt
Descargar modelos de pesosDescarga los pesos necesarios del modelo de Huggingface y colócalos en el directorio del proyecto.

Utilización

Modelos de cargaCarga el modelo Zonos en el entorno Python:

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

Generar discurso: Proporcione muestras de texto y hablantes para generar la salida de voz: python wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us") conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
Uso de la interfaz de Gradio: Se recomienda la interfaz Gradio para la generación de voz: bash uv run gradio_interface.py # 或者 python gradio_interface.py Esto genera un sample.wav guardado en el directorio raíz del proyecto.

Flujo detallado de funcionamiento de las funciones

Clonación de voz TTS de muestra cero::
- Introduciendo el texto deseado y una muestra de hablante de 10-30 segundos, el modelo generará una salida de voz de alta calidad.
Entrada de prefijo de audio::
- Añada prefijos de texto y audio para enriquecer la coincidencia de locutores. Por ejemplo, los prefijos de audio de susurro pueden utilizarse para generar efectos de susurro.
Soporte multilingüe::
- Seleccione el idioma deseado (por ejemplo, inglés, japonés, chino, francés o alemán) y el modelo generará la salida de voz en el idioma correspondiente.
Calidad de audio y control de las emociones::
- Utiliza la función Configuración condicional del modelo para controlar meticulosamente todos los aspectos del audio generado, como la velocidad del habla, la variación del tono, la calidad del audio y la emoción (por ejemplo, felicidad, miedo, tristeza y enfado).
Generación de voz en tiempo real::
- Utilice la interfaz de Gradio u otros métodos de generación en tiempo real para generar rápidamente habla de alta fidelidad.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

Devv: Asistente de búsqueda de IA para desarrolladores que ayuda en la programación de código | Modo de búsqueda de código Git

Últimos recursos sobre IA # Programación de IA

Hace 1 año

057.6K

腾讯混元3D（Hunyuan3D）：生成高分辨率3D资产，多种3D素材生成工作流

Tencent Hybrid 3D (Hunyuan3D): generación de activos 3D de alta resolución, múltiples flujos de trabajo de generación de materiales 3D

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Texto e Imagen a 3D

Hace 1 año

069.7K

llm.pdf: proyecto experimental para ejecutar un modelo lingüístico a gran escala en un archivo PDF

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

hace 11mos

056.2K

Wenxin Yiyan (Wen Xiaoyan): Baidu lanza un asistente de escritura inteligente, Wenxin Yiyan es de uso gratuito.

Últimos recursos sobre IA # AI Big Model Herramienta de diálogo nativa # Libre Modelo Grande API

Hace 1 año

0121.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Zonos: herramientas de síntesis y clonación de voz de alta calidad

Introducción general

Lista de funciones