OuteTTS: modelo experimental de conversión de texto en voz, TTS implementado mediante un enfoque de modelado lingüístico puro.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

76.9K 00

Introducción general

OuteTTS es un modelo experimental de conversión de texto en habla (TTS) que utiliza un enfoque de modelado lingüístico puro para generar habla de alta calidad. A diferencia de los sistemas TTS tradicionales, OuteTTS no requiere adaptadores externos ni arquitecturas complejas. El modelo se basa en la arquitectura LLaMa y admite una función de clonación del habla que permite generar habla con características aleatorias del hablante.OuteTTS pretende lograr una síntesis del habla eficiente mediante una arquitectura sencilla adecuada para una amplia gama de escenarios de aplicación.

OuteTTS-0.1-350M supone un paso adelante en la simplificación de la síntesis de texto a voz. OuteTTS-0.1-350M demuestra que es posible generar habla de alta calidad mediante un enfoque de modelado puramente lingüístico.

Lista de funciones

texto a vozConvierte texto mecanografiado en habla natural y fluida.
clonación de voz: Crea altavoces personalizados haciendo referencia a archivos de audio y generando el discurso correspondiente.
Compatibilidad con varios modelos: Se admiten los modelos Hugging Face y GGUF.
Reproducción y almacenamiento de audio: La voz generada puede reproducirse directamente o guardarse como archivo de audio.
Sanción por temperatura y repeticiónControl de la diversidad y suavidad del habla generada ajustando los parámetros de temperatura y penalización por repetición.

Utilizar la ayuda

Proceso de instalación

Instalación de OuteTTS::
```
pip install outetts
```
Importante: Para que GGUF sea compatible, debe instalar manualmente la aplicación llama-cpp-python. Visite llama-cpp-python Obtenga instrucciones de instalación específicas.

Utilización

Inicializar la interfaz::

from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
# 使用 Hugging Face 模型初始化接口
interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
# 或者使用 GGUF 模型初始化接口
# interface = InterfaceGGUF("path/to/model.gguf")

Generar salida TTS::

output = interface.generate(
text="Hello, am I working?",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

Reproduce y guarda el audio generado::

# 播放生成的音频
output.play()
# 保存生成的音频到文件
output.save("output.wav")

clonación de voz

Creación de altavoces personalizados::

speaker = interface.create_speaker(
"path/to/reference.wav",
"reference text matching the audio"
)

Guardar y cargar altavoces::

# 保存说话人到文件
interface.save_speaker(speaker, "speaker.pkl")
# 从文件加载说话人
speaker = interface.load_speaker("speaker.pkl")

Generar TTS con voz personalizada::

output = interface.generate(
text="This is a cloned voice speaking",
speaker=speaker,
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

parametrización

Temperatura: Controla la diversidad del habla generada. Las temperaturas más bajas (por ejemplo, 0,1) generan salidas más deterministas, mientras que las temperaturas más altas (por ejemplo, 0,7) generan salidas más diversas.
Sanción por repetición (repetition_penalty): Controla el nivel de repetición en el discurso generado. Una penalización por repetición más alta (por ejemplo, 1,1) reduce la generación de contenido duplicado.

Siguiendo estos pasos, los usuarios pueden instalar y utilizar fácilmente el modelo OuteTTS para operaciones de conversión de texto en voz y clonación de voz. Los ajustes detallados de los parámetros y los ejemplos de uso pueden ayudar a los usuarios a generar una salida de voz de alta calidad según sus necesidades específicas.