Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

OuteTTS: modelo experimental de conversão de texto em fala, TTS implementado usando uma abordagem de modelagem de linguagem pura

Introdução geral

O OuteTTS é um modelo experimental de conversão de texto em fala (TTS) que usa uma abordagem de modelagem de linguagem pura para gerar uma fala de alta qualidade. Ao contrário dos sistemas TTS tradicionais, o OuteTTS não requer adaptadores externos nem arquiteturas complexas. O modelo é baseado na arquitetura LLaMa e oferece suporte a um recurso de clonagem de fala que permite a geração de fala com características aleatórias do locutor. O OuteTTS tem como objetivo obter uma síntese de fala eficiente por meio de uma arquitetura simples, adequada a uma ampla gama de cenários de aplicação.

O OuteTTS-0.1-350M é um passo à frente na simplificação da síntese de texto para fala. O OuteTTS-0.1-350M prova que a fala de alta qualidade pode ser gerada por meio de uma abordagem de modelagem puramente linguística.

 

Lista de funções

  • conversão de texto em falaConversão de texto digitado em fala natural e suave.
  • clonagem de falaCrie alto-falantes personalizados fazendo referência a arquivos de áudio e gerando a fala correspondente.
  • Suporte a vários modelosModelo Hugging Face e modelo GGUF são suportados.
  • Reprodução e salvamento de áudioVoz gerada: A voz gerada pode ser reproduzida diretamente ou salva como um arquivo de áudio.
  • Temperatura e penalidade de repetiçãoControle a diversidade e a suavidade da fala gerada ajustando os parâmetros de penalidade de temperatura e repetição.

 

Usando a Ajuda

Processo de instalação

  1. Instalação do OuteTTS::
    pip install outetts
    

    Importante: Para obter suporte ao GGUF, você precisa instalar manualmente o llama-cpp-python. Por favor, visite llama-cpp-python Obtenha instruções específicas de instalação.

Uso

  1. Inicializar a interface::
    from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
    # 使用 Hugging Face 模型初始化接口
    interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
    # 或者使用 GGUF 模型初始化接口
    # interface = InterfaceGGUF("path/to/model.gguf")
    
  2. Gerar saída TTS::
    output = interface.generate(
    text="Hello, am I working?",
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    
  3. Reproduzir e salvar o áudio gerado::
    # 播放生成的音频
    output.play()
    # 保存生成的音频到文件
    output.save("output.wav")
    

clonagem de fala

  1. Criação de alto-falantes personalizados::
    speaker = interface.create_speaker(
    "path/to/reference.wav",
    "reference text matching the audio"
    )
    
  2. Salvando e carregando alto-falantes::
    # 保存说话人到文件
    interface.save_speaker(speaker, "speaker.pkl")
    # 从文件加载说话人
    speaker = interface.load_speaker("speaker.pkl")
    
  3. Geração de TTS com fala personalizada::
    output = interface.generate(
    text="This is a cloned voice speaking",
    speaker=speaker,
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    

parametrização

  • TemperaturaTemperatura de saída: controla a diversidade da fala gerada. Temperaturas mais baixas (por exemplo, 0,1) geram resultados mais determinísticos, enquanto temperaturas mais altas (por exemplo, 0,7) geram resultados mais diversificados.
  • Penalidade de repetição (repetition_penalty)Penalidade de repetição: controla o nível de repetição no discurso gerado. Uma penalidade de repetição mais alta (por exemplo, 1,1) reduz a geração de conteúdo duplicado.

Por meio das etapas acima, os usuários podem instalar e usar facilmente o modelo OuteTTS para operações de conversão de texto em fala e clonagem de fala. Os ajustes detalhados dos parâmetros e os exemplos de uso podem ajudar os usuários a gerar uma saída de fala de alta qualidade de acordo com suas necessidades específicas.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OuteTTS: modelo experimental de conversão de texto em fala, TTS implementado usando uma abordagem de modelagem de linguagem pura
pt_BRPortuguês do Brasil