Introdução geral
O OuteTTS é um modelo experimental de conversão de texto em fala (TTS) que usa uma abordagem de modelagem de linguagem pura para gerar uma fala de alta qualidade. Ao contrário dos sistemas TTS tradicionais, o OuteTTS não requer adaptadores externos nem arquiteturas complexas. O modelo é baseado na arquitetura LLaMa e oferece suporte a um recurso de clonagem de fala que permite a geração de fala com características aleatórias do locutor. O OuteTTS tem como objetivo obter uma síntese de fala eficiente por meio de uma arquitetura simples, adequada a uma ampla gama de cenários de aplicação.
O OuteTTS-0.1-350M é um passo à frente na simplificação da síntese de texto para fala. O OuteTTS-0.1-350M prova que a fala de alta qualidade pode ser gerada por meio de uma abordagem de modelagem puramente linguística.
Lista de funções
- conversão de texto em falaConversão de texto digitado em fala natural e suave.
- clonagem de falaCrie alto-falantes personalizados fazendo referência a arquivos de áudio e gerando a fala correspondente.
- Suporte a vários modelosModelo Hugging Face e modelo GGUF são suportados.
- Reprodução e salvamento de áudioVoz gerada: A voz gerada pode ser reproduzida diretamente ou salva como um arquivo de áudio.
- Temperatura e penalidade de repetiçãoControle a diversidade e a suavidade da fala gerada ajustando os parâmetros de penalidade de temperatura e repetição.
Usando a Ajuda
Processo de instalação
- Instalação do OuteTTS::
pip install outetts
Importante: Para obter suporte ao GGUF, você precisa instalar manualmente o
llama-cpp-python
. Por favor, visite llama-cpp-python Obtenha instruções específicas de instalação.
Uso
- Inicializar a interface::
from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF O # inicializa a interface usando o modelo Hugging Face interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M") # ou usar a interface de inicialização do modelo GGUF # interface = InterfaceGGUF("path/to/model.gguf")
- Gerar saída TTS::
output = interface.generate( text="Olá, estou trabalhando?", text="Olá, estou trabalhando?", temperature=0.1, repetition_penalty=1.1, max_length=4096 max_length=4096 )
- Reproduzir e salvar o áudio gerado::
# Reproduzir o áudio gerado output.play() # Salve o áudio gerado em um arquivo output.save("output.wav")
clonagem de fala
- Criação de alto-falantes personalizados::
alto-falante = interface.create_speaker( "path/to/reference.wav", "texto de referência que corresponde ao áudio", "texto de referência que corresponde ao áudio") "texto de referência correspondente ao áudio" )
- Salvando e carregando alto-falantes::
# Salve o alto-falante em um arquivo interface.save_speaker(speaker, "speaker.pkl") # Carregar o alto-falante do arquivo alto-falante = interface.load_speaker("speaker.pkl")
- Geração de TTS com fala personalizada::
output = interface.generate( text="Esta é uma voz clonada falando", text="Esta é uma voz clonada falando", speaker=speaker, temperature=0.1, repetition_penalty=1.1, max_length=4096 max_length=4096 )
parametrização
- TemperaturaTemperatura de saída: controla a diversidade da fala gerada. Temperaturas mais baixas (por exemplo, 0,1) geram resultados mais determinísticos, enquanto temperaturas mais altas (por exemplo, 0,7) geram resultados mais diversificados.
- Penalidade de repetição (repetition_penalty)Penalidade de repetição: controla o nível de repetição no discurso gerado. Uma penalidade de repetição mais alta (por exemplo, 1,1) reduz a geração de conteúdo duplicado.
Por meio das etapas acima, os usuários podem instalar e usar facilmente o modelo OuteTTS para operações de conversão de texto em fala e clonagem de fala. Os ajustes detalhados dos parâmetros e os exemplos de uso podem ajudar os usuários a gerar uma saída de fala de alta qualidade de acordo com suas necessidades específicas.