A Amazon lança o BASE TTS, o maior modelo de IA de conversão de texto em fala disponível, mostrando "recursos potenciais"

Notícias sobre IAPublicado há 2 anos Círculo de compartilhamento de IA

1.7K 00

亚马逊发布目前最大型的文本语音转换人工智能模型BASE TTS展现了“潜在能力”

Pesquisadores da Amazon treinaram o maior modelo de conversão de texto em fala até hoje, que supostamente apresenta qualidades "latentes" que permitem uma saída de fala mais natural de frases complexas. Esse avanço pode ser a chave para se afastar da falta de naturalidade nessa área da tecnologia.

O crescimento e o aprimoramento desses modelos continuam, e os pesquisadores esperam especificamente ver o salto de capacidade que testemunhamos quando o conjunto de modelos de idiomas aumenta até um determinado nível. Por alguma razão desconhecida, quando os modelos longos de linguagem (LLMs) são dimensionados além de um determinado ponto, eles se tornam mais avançados e flexíveis, capazes de assumir tarefas não treinadas.

Isso não significa que os modelos adquiriram autoconsciência ou atributos semelhantes, mas sim que, após um certo ponto de transcendência, seu desempenho em tarefas específicas de IA de conversação apresentou uma tendência acentuada de aumento. A equipe de Inteligência Artificial Geral (AGI) da Amazon - cujo objetivo não é segredo - pensou que o mesmo poderia acontecer com a evolução dos modelos de conversão de texto em fala, e sua pesquisa mostra que isso aconteceu.

O novo modelo é chamado de [Conversão de texto em fala por streaming adaptável em larga escala com recursos potenciaisA maior versão do modelo utiliza 100.000 horas de material de fala de domínio público, das quais 90% estão em inglês, e o restante inclui alemão, holandês e espanhol.

Com 9,8 milhões de parâmetros, o BASE-large é o maior modelo da área. Para fins de comparação, eles também treinaram modelos com 400 milhões e 150 milhões de parâmetros com base em 10.000 e 1.000 horas de material de áudio, respectivamente - o motivo disso é que, se um modelo apresentar comportamentos potenciais e o outro não, será possível identificar as áreas críticas onde esses comportamentos começam a surgir.

Os resultados mostraram que o modelo de tamanho médio demonstrou o salto de competência que a equipe esperava, não apenas na qualidade da fala comum (embora as pontuações tenham melhorado, mas apenas ligeiramente), mas em uma série de competências potenciais que a equipe observou e avaliou. Aqui estão alguns exemplos de textos complicados mencionados no artigo:

substantivo composto (gramática)O casal Beckham decidiu alugar uma charmosa e tradicional casa de campo de pedra para passar as férias.
necessidades emocionais"Oh meu Deus! Estamos realmente indo para as Maldivas? É inacreditável!" gritou Jenny, pulando para cima e para baixo de emoção.
vocabulário de língua estrangeira:: "O Sr. Henry é conhecido por seus excelentes preparativos na cozinha e orquestrou um banquete de sete pratos, cada um dos quais é uma iguaria rara.
Paleolinguística(como na parte não textual decifrável): 'Quieta, Lucy, fique quieta, não podemos acordar seu irmão', sussurrou Tom, enquanto caminhavam cuidadosamente pelo quarto das crianças.
um sinal de pontuaçãoEla recebeu uma mensagem de texto bizarra de seu irmão: "Emergência em casa; ligue o mais rápido possível! Mamãe e papai estão preocupados. # Family First".
Como fazer uma perguntaMas as perguntas sobre a saída da Grã-Bretanha da União Europeia ainda pairam no ar: depois de todas as provações e tribulações, os ministros encontrarão respostas a tempo?
Complexidade sintáticaDe Moya, que recentemente recebeu um Lifetime Achievement Award, estrelou um filme em 2022 que foi um sucesso de bilheteria, apesar de ter recebido críticas mistas.

"Essas frases foram cuidadosamente elaboradas para incluir tarefas desafiadoras de análise de frases estruturadas complexas, aplicação de ênfase frasal a substantivos compostos longos, produção de pronúncias emotivas ou sussurradas, ou pronúncia correta de palavras ou pontuação em idiomas estrangeiros, como 'qi' ou '@' - todas tarefas para as quais o BASE TTS não é treinado explicitamente", disseram os autores. Pronunciar palavras ou pontuação corretamente são tarefas desafiadoras - tarefas para as quais o BASE TTS não é explicitamente treinado", disseram os autores.

Esses recursos normalmente frustram os mecanismos de conversão de texto em fala, que podem pronunciar palavras incorretamente, omitir palavras, usar entonação inadequada ou cometer outros erros. Embora o BASE TTS também encontre dificuldades, sua capacidade de processamento excede em muito a de modelos contemporâneos, como o Tortoise e o VALL-E.

O site oficial fornece muitos exemplos de como esses textos difíceis podem ser lidos em voz alta de forma natural e fluente.Dê uma olhada no site que eles criaram para o modelo] É claro que esses exemplos foram examinados por pesquisadores, portanto, devem ter sido escolhidos a dedo, mas ainda assim é impressionante. Aqui estão alguns exemplos, caso você não queira clicar:

Como os três modelos BASE TTS compartilham a mesma arquitetura, o tamanho dos modelos e a adequação de seus dados de treinamento são claramente a razão pela qual os modelos são capazes de lidar com a complexidade descrita acima. Observe que, no momento, este ainda é um modelo experimental e um fluxo de processamento - não um modelo comercial ou produto semelhante. A pesquisa de acompanhamento precisará determinar o ponto de inflexão no qual os recursos potenciais são demonstrados e como treinar e implantar com eficiência o modelo final.

O interessante é que o modelo pode ser "transmitido", como o nome sugere, o que significa que ele não precisa gerar a frase inteira de uma vez, mas pode gerá-la de forma incremental em uma taxa de bits relativamente baixa. A equipe também está tentando empacotar metadados da fala, como humor e ritmo, em um fluxo separado e de baixa largura de banda, que poderia ser reproduzido em sincronia com o áudio normal.

Parece que a modelagem de conversão de texto em fala pode estar pronta para um momento de ruptura em 2024 - bem a tempo para as eleições! No entanto, a utilidade da tecnologia é inegável, especialmente quando se trata de melhorar a acessibilidade. É importante observar que a equipe optou por não divulgar o código-fonte do modelo e outros dados, dado o risco de que o modelo possa ser explorado por pessoas desavisadas. No entanto, mais cedo ou mais tarde, a verdade virá à tona.

Notícias sobre IA

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Habilitada para IA, a Wikipédia do Baidu se torna uma ferramenta eficiente: versão completa do DeepSeek R1 habilitada

Notícias sobre IA

5 meses atrás

01K

Debate sobre o desempenho da memória da inteligência artificial: os benchmarks do Zep Mem0 estão em dúvida

Notícias sobre IA

3 meses atrás

01.5K

Uma análise lado a lado das principais ferramentas de busca profunda de IA do mercado: DeepSeek R1 supera o desempenho

Notícias sobre IA

6 meses atrás

01.2K

Experiência aberta do Smart Spectrum GLM-PC: agente multimodal para operação autônoma do computador atualizado

Notícias sobre IA

7 meses atrás

01.5K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

A Amazon lança o BASE TTS, o maior modelo de IA de conversão de texto em fala disponível, mostrando "recursos potenciais"

Microsoft: Hackers usam IA para aumentar suas habilidades de ataque cibernético

O mais recente chatbot de IA da Nvidia funciona de forma independente em seu PC e é totalmente gratuito.

Artigos relacionados

Habilitada para IA, a Wikipédia do Baidu se torna uma ferramenta eficiente: versão completa do DeepSeek R1 habilitada

Debate sobre o desempenho da memória da inteligência artificial: os benchmarks do Zep Mem0 estão em dúvida

Uma análise lado a lado das principais ferramentas de busca profunda de IA do mercado: DeepSeek R1 supera o desempenho

Experiência aberta do Smart Spectrum GLM-PC: agente multimodal para operação autônoma do computador atualizado

Sem comentários

Últimas coleções

Artigos mais recentes

A Amazon lança o BASE TTS, o maior modelo de IA de conversão de texto em fala disponível, mostrando "recursos potenciais"

Microsoft: Hackers usam IA para aumentar suas habilidades de ataque cibernético

O mais recente chatbot de IA da Nvidia funciona de forma independente em seu PC e é totalmente gratuito.

Artigos relacionados

Habilitada para IA, a Wikipédia do Baidu se torna uma ferramenta eficiente: versão completa do DeepSeek R1 habilitada

Debate sobre o desempenho da memória da inteligência artificial: os benchmarks do Zep Mem0 estão em dúvida

Uma análise lado a lado das principais ferramentas de busca profunda de IA do mercado: DeepSeek R1 supera o desempenho

Experiência aberta do Smart Spectrum GLM-PC: agente multimodal para operação autônoma do computador atualizado

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes