Aprendizagem pessoal com IA
e orientação prática

OuteTTS: modelo experimental de conversão de texto em fala, TTS implementado usando uma abordagem de modelagem de linguagem pura

Introdução geral

O OuteTTS é um modelo experimental de conversão de texto em fala (TTS) que usa uma abordagem de modelagem de linguagem pura para gerar uma fala de alta qualidade. Ao contrário dos sistemas TTS tradicionais, o OuteTTS não requer adaptadores externos nem arquiteturas complexas. O modelo é baseado na arquitetura LLaMa e oferece suporte a um recurso de clonagem de fala que permite a geração de fala com características aleatórias do locutor. O OuteTTS tem como objetivo obter uma síntese de fala eficiente por meio de uma arquitetura simples, adequada a uma ampla gama de cenários de aplicação.

O OuteTTS-0.1-350M é um passo à frente na simplificação da síntese de texto para fala. O OuteTTS-0.1-350M prova que a fala de alta qualidade pode ser gerada por meio de uma abordagem de modelagem puramente linguística.

 

Lista de funções

  • conversão de texto em falaConversão de texto digitado em fala natural e suave.
  • clonagem de falaCrie alto-falantes personalizados fazendo referência a arquivos de áudio e gerando a fala correspondente.
  • Suporte a vários modelosModelo Hugging Face e modelo GGUF são suportados.
  • Reprodução e salvamento de áudioVoz gerada: A voz gerada pode ser reproduzida diretamente ou salva como um arquivo de áudio.
  • Temperatura e penalidade de repetiçãoControle a diversidade e a suavidade da fala gerada ajustando os parâmetros de penalidade de temperatura e repetição.

 

Usando a Ajuda

Processo de instalação

  1. Instalação do OuteTTS::
    pip install outetts
    

    Importante: Para obter suporte ao GGUF, você precisa instalar manualmente o llama-cpp-python. Por favor, visite llama-cpp-python Obtenha instruções específicas de instalação.

Uso

  1. Inicializar a interface::
    from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
    O # inicializa a interface usando o modelo Hugging Face
    interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
    # ou usar a interface de inicialização do modelo GGUF
    # interface = InterfaceGGUF("path/to/model.gguf")
    
  2. Gerar saída TTS::
    output = interface.generate(
    text="Olá, estou trabalhando?",
    text="Olá, estou trabalhando?", temperature=0.1,
    repetition_penalty=1.1, max_length=4096
    max_length=4096
    )
    
  3. Reproduzir e salvar o áudio gerado::
    # Reproduzir o áudio gerado
    output.play()
    # Salve o áudio gerado em um arquivo
    output.save("output.wav")
    

clonagem de fala

  1. Criação de alto-falantes personalizados::
    alto-falante = interface.create_speaker(
    "path/to/reference.wav", "texto de referência que corresponde ao áudio", "texto de referência que corresponde ao áudio")
    "texto de referência correspondente ao áudio"
    )
    
  2. Salvando e carregando alto-falantes::
    # Salve o alto-falante em um arquivo
    interface.save_speaker(speaker, "speaker.pkl")
    # Carregar o alto-falante do arquivo
    alto-falante = interface.load_speaker("speaker.pkl")
    
  3. Geração de TTS com fala personalizada::
    output = interface.generate(
    text="Esta é uma voz clonada falando",
    text="Esta é uma voz clonada falando", speaker=speaker,
    temperature=0.1,
    repetition_penalty=1.1, max_length=4096
    max_length=4096
    )
    

parametrização

  • TemperaturaTemperatura de saída: controla a diversidade da fala gerada. Temperaturas mais baixas (por exemplo, 0,1) geram resultados mais determinísticos, enquanto temperaturas mais altas (por exemplo, 0,7) geram resultados mais diversificados.
  • Penalidade de repetição (repetition_penalty)Penalidade de repetição: controla o nível de repetição no discurso gerado. Uma penalidade de repetição mais alta (por exemplo, 1,1) reduz a geração de conteúdo duplicado.

Por meio das etapas acima, os usuários podem instalar e usar facilmente o modelo OuteTTS para operações de conversão de texto em fala e clonagem de fala. Os ajustes detalhados dos parâmetros e os exemplos de uso podem ajudar os usuários a gerar uma saída de fala de alta qualidade de acordo com suas necessidades específicas.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OuteTTS: modelo experimental de conversão de texto em fala, TTS implementado usando uma abordagem de modelagem de linguagem pura

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil