Aprendizagem pessoal com IA
e orientação prática

A Amazon lança o BASE TTS, o maior modelo de IA de conversão de texto em fala disponível, mostrando "recursos potenciais"

A Amazon revela o BASE TTS, o maior modelo de IA de conversão de texto em fala até o momento, mostrando 'recursos potenciais'-1

 


Pesquisadores da Amazon treinaram o maior modelo de conversão de texto em fala até hoje, que supostamente apresenta qualidades "latentes" que permitem uma saída de fala mais natural de frases complexas. Esse avanço pode ser a chave para se afastar da falta de naturalidade nessa área da tecnologia.

 

O crescimento e o aprimoramento desses modelos continuam, e os pesquisadores esperam especificamente ver o salto de capacidade que testemunhamos quando o conjunto de modelos de idiomas aumenta até um determinado nível. Por alguma razão desconhecida, quando os modelos longos de linguagem (LLMs) são dimensionados além de um determinado ponto, eles se tornam mais avançados e flexíveis, capazes de assumir tarefas não treinadas.

 

Isso não significa que os modelos adquiriram autoconsciência ou atributos semelhantes, mas sim que, após um certo ponto de transcendência, seu desempenho em tarefas específicas de IA de conversação apresentou uma tendência acentuada de aumento. A equipe de Inteligência Artificial Geral (AGI) da Amazon - cujo objetivo não é segredo - pensou que o mesmo poderia acontecer com a evolução dos modelos de conversão de texto em fala, e sua pesquisa mostra que isso aconteceu.

 

O novo modelo é chamado de [Conversão de texto em fala por streaming adaptável em larga escala com recursos potenciaisA maior versão do modelo utiliza 100.000 horas de material de fala de domínio público, das quais 90% estão em inglês, e o restante inclui alemão, holandês e espanhol.

 

Com 9,8 milhões de parâmetros, o BASE-large é o maior modelo da área. Para fins de comparação, eles também treinaram modelos com 400 milhões e 150 milhões de parâmetros com base em 10.000 e 1.000 horas de material de áudio, respectivamente - o motivo disso é que, se um modelo apresentar comportamentos potenciais e o outro não, será possível identificar as áreas críticas onde esses comportamentos começam a surgir.

 

Os resultados mostraram que o modelo de tamanho médio demonstrou o salto de competência que a equipe esperava, não apenas na qualidade da fala comum (embora as pontuações tenham melhorado, mas apenas ligeiramente), mas em uma série de competências potenciais que a equipe observou e avaliou. Aqui estão alguns exemplos de textos complicados mencionados no artigo:

 

substantivo composto (gramática)O casal Beckham decidiu alugar uma charmosa e tradicional casa de campo de pedra para passar as férias.
necessidades emocionais"Oh meu Deus! Estamos realmente indo para as Maldivas? É inacreditável!" gritou Jenny, pulando para cima e para baixo de emoção.
vocabulário de língua estrangeira:: "O Sr. Henry é conhecido por seus excelentes preparativos na cozinha e orquestrou um banquete de sete pratos, cada um dos quais é uma iguaria rara.
Paleolinguística(como na parte não textual decifrável): 'Quieta, Lucy, fique quieta, não podemos acordar seu irmão', sussurrou Tom, enquanto caminhavam cuidadosamente pelo quarto das crianças.
um sinal de pontuaçãoEla recebeu uma mensagem de texto bizarra de seu irmão: "Emergência em casa; ligue o mais rápido possível! Mamãe e papai estão preocupados. # Family First".
Como fazer uma perguntaMas as perguntas sobre a saída da Grã-Bretanha da União Europeia ainda pairam no ar: depois de todas as provações e tribulações, os ministros encontrarão respostas a tempo?
Complexidade sintáticaDe Moya, que recentemente recebeu um Lifetime Achievement Award, estrelou um filme em 2022 que foi um sucesso de bilheteria, apesar de ter recebido críticas mistas.

 

"Essas frases foram cuidadosamente elaboradas para incluir tarefas desafiadoras de análise de frases estruturadas complexas, aplicação de ênfase frasal a substantivos compostos longos, produção de pronúncias emotivas ou sussurradas, ou pronúncia correta de palavras ou pontuação em idiomas estrangeiros, como 'qi' ou '@' - todas tarefas para as quais o BASE TTS não é treinado explicitamente", disseram os autores. Pronunciar palavras ou pontuação corretamente são tarefas desafiadoras - tarefas para as quais o BASE TTS não é explicitamente treinado", disseram os autores.

 

Esses recursos normalmente frustram os mecanismos de conversão de texto em fala, que podem pronunciar palavras incorretamente, omitir palavras, usar entonação inadequada ou cometer outros erros. Embora o BASE TTS também encontre dificuldades, sua capacidade de processamento excede em muito a de modelos contemporâneos, como o Tortoise e o VALL-E.

 

O site oficial fornece muitos exemplos de como esses textos difíceis podem ser lidos em voz alta de forma natural e fluente.Dê uma olhada no site que eles criaram para o modelo] É claro que esses exemplos foram examinados por pesquisadores, portanto, devem ter sido escolhidos a dedo, mas ainda assim é impressionante. Aqui estão alguns exemplos, caso você não queira clicar:

 

Como os três modelos BASE TTS compartilham a mesma arquitetura, o tamanho dos modelos e a adequação de seus dados de treinamento são claramente a razão pela qual os modelos são capazes de lidar com a complexidade descrita acima. Observe que, no momento, este ainda é um modelo experimental e um fluxo de processamento - não um modelo comercial ou produto semelhante. A pesquisa de acompanhamento precisará determinar o ponto de inflexão no qual os recursos potenciais são demonstrados e como treinar e implantar com eficiência o modelo final.

 

O interessante é que o modelo pode ser "transmitido", como o nome sugere, o que significa que ele não precisa gerar a frase inteira de uma vez, mas pode gerá-la de forma incremental em uma taxa de bits relativamente baixa. A equipe também está tentando empacotar metadados da fala, como humor e ritmo, em um fluxo separado e de baixa largura de banda, que poderia ser reproduzido em sincronia com o áudio normal.

 

Parece que a modelagem de conversão de texto em fala pode estar pronta para um momento de ruptura em 2024 - bem a tempo para as eleições! No entanto, a utilidade da tecnologia é inegável, especialmente quando se trata de melhorar a acessibilidade. É importante observar que a equipe optou por não divulgar o código-fonte do modelo e outros dados, dado o risco de que o modelo possa ser explorado por pessoas desavisadas. No entanto, mais cedo ou mais tarde, a verdade virá à tona.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " A Amazon lança o BASE TTS, o maior modelo de IA de conversão de texto em fala disponível, mostrando "recursos potenciais"

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil