OuteTTS: modelo experimental de conversão de texto em fala, TTS implementado usando uma abordagem de modelagem de linguagem pura

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

24.2K 00

Introdução geral

O OuteTTS é um modelo experimental de conversão de texto em fala (TTS) que usa uma abordagem de modelagem de linguagem pura para gerar uma fala de alta qualidade. Ao contrário dos sistemas TTS tradicionais, o OuteTTS não requer adaptadores externos nem arquiteturas complexas. O modelo é baseado na arquitetura LLaMa e oferece suporte a um recurso de clonagem de fala que permite a geração de fala com características aleatórias do locutor. O OuteTTS tem como objetivo obter uma síntese de fala eficiente por meio de uma arquitetura simples, adequada a uma ampla gama de cenários de aplicação.

O OuteTTS-0.1-350M é um passo à frente na simplificação da síntese de texto para fala. O OuteTTS-0.1-350M prova que a fala de alta qualidade pode ser gerada por meio de uma abordagem de modelagem puramente linguística.

Lista de funções

conversão de texto em falaConversão de texto digitado em fala natural e suave.
clonagem de falaCrie alto-falantes personalizados fazendo referência a arquivos de áudio e gerando a fala correspondente.
Suporte a vários modelosModelo Hugging Face e modelo GGUF são suportados.
Reprodução e salvamento de áudioVoz gerada: A voz gerada pode ser reproduzida diretamente ou salva como um arquivo de áudio.
Temperatura e penalidade de repetiçãoControle a diversidade e a suavidade da fala gerada ajustando os parâmetros de penalidade de temperatura e repetição.

Usando a Ajuda

Processo de instalação

Instalação do OuteTTS::
```
pip install outetts
```
Importante: Para obter suporte ao GGUF, você precisa instalar manualmente o llama-cpp-python. Por favor, visite llama-cpp-python Obtenha instruções específicas de instalação.

Uso

Inicializar a interface::

from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
# 使用 Hugging Face 模型初始化接口
interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
# 或者使用 GGUF 模型初始化接口
# interface = InterfaceGGUF("path/to/model.gguf")

Gerar saída TTS::

output = interface.generate(
text="Hello, am I working?",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

Reproduzir e salvar o áudio gerado::

# 播放生成的音频
output.play()
# 保存生成的音频到文件
output.save("output.wav")

clonagem de fala

Criação de alto-falantes personalizados::

speaker = interface.create_speaker(
"path/to/reference.wav",
"reference text matching the audio"
)

Salvando e carregando alto-falantes::

# 保存说话人到文件
interface.save_speaker(speaker, "speaker.pkl")
# 从文件加载说话人
speaker = interface.load_speaker("speaker.pkl")

Geração de TTS com fala personalizada::

output = interface.generate(
text="This is a cloned voice speaking",
speaker=speaker,
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

parametrização

TemperaturaTemperatura de saída: controla a diversidade da fala gerada. Temperaturas mais baixas (por exemplo, 0,1) geram resultados mais determinísticos, enquanto temperaturas mais altas (por exemplo, 0,7) geram resultados mais diversificados.
Penalidade de repetição (repetition_penalty)Penalidade de repetição: controla o nível de repetição no discurso gerado. Uma penalidade de repetição mais alta (por exemplo, 1,1) reduz a geração de conteúdo duplicado.

Por meio das etapas acima, os usuários podem instalar e usar facilmente o modelo OuteTTS para operações de conversão de texto em fala e clonagem de fala. Os ajustes detalhados dos parâmetros e os exemplos de uso podem ajudar os usuários a gerar uma saída de fala de alta qualidade de acordo com suas necessidades específicas.