O Alibaba AI Research Institute lança o CosyVoice 2: um modelo aprimorado de síntese de fala em streaming

Notícias sobre IAPublicado há 8 meses Círculo de compartilhamento de IA

13.6K 00

1. visão geral

A tecnologia de síntese de fala teve um progresso significativo nos últimos anos, especialmente ao permitir a geração de fala natural e suave em tempo real. No entanto, problemas como latência, precisão de pronúncia e consistência do locutor ainda atormentam o setor em aplicações do mundo real, especialmente em aplicativos de streaming que exigem alta capacidade de resposta. Esses desafios técnicos são particularmente graves quando se lida com entradas linguísticas complexas, como trava-línguas ou palavras polifônicas, que estão além dos recursos de processamento dos modelos existentes. Para enfrentar esses desafios, os pesquisadores da Alibaba introduziram o CosyVoice 2, um modelo atualizado para desafios técnicos de síntese de fala, que visa solucionar esses problemas de forma eficaz.

2. estreia do CosyVoice 2: do básico ao avançado

阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型 CosyVoice 2 baseia-se no CosyVoice original e traz uma atualização significativa na tecnologia de síntese de fala. Esse modelo aprimorado não é otimizado apenas para aplicativos de streaming, mas também faz progressos significativos em aplicativos off-line. Sua adaptabilidade, flexibilidade e precisão em uma ampla gama de cenários de aplicativos foram aprimoradas, especialmente em sistemas de conversão de texto em fala e fala interativa.

Principais destaques do CosyVoice 2:

Modos unificados de streaming e não streamingCosyVoice 2 se adapta perfeitamente a uma variedade de cenários de aplicativos, sejam eles gerados em tempo real ou processados off-line, sem comprometer o desempenho.
Maior precisão de pronúnciaEm ambientes de idiomas complexos, o CosyVoice 2 reduz os erros de pronúncia de 30%-50% e melhora muito a inteligibilidade da fala, especialmente ao lidar com palavras polissilábicas ou trava-línguas.
congruência aprimorada do oradorSeja na síntese zero-shot ou na síntese entre idiomas, o CosyVoice 2 garante que a saída seja consistente, de modo que cada síntese seja natural e suave.
Controle de comando mais precisoOs usuários podem controlar com precisão o tom, o estilo e o sotaque de sua voz por meio de comandos de linguagem natural e até mesmo adaptar o desempenho da voz às necessidades emocionais.

3. a tecnologia e os pontos fortes por trás da inovação

O CosyVoice 2 foi capaz de resolver vários desafios no campo da síntese de fala graças a várias inovações em sua tecnologia.

Técnica de quantificação escalar finita (FSQ): a FSQ substitui o método tradicional de quantificação vetorial e otimiza o uso de vocabulários marcados na fala para aprimorar a capacidade de representação semântica e a qualidade da síntese. Essa inovação tecnológica não só aumenta a capacidade expressiva do modelo, mas também reduz efetivamente a complexidade do processamento de dados.
Arquitetura simplificada de conversão de texto em fala: o CosyVoice 2 baseia-se em LLMs (Large Language Models) pré-treinados, eliminando a necessidade de codificadores de texto adicionais e simplificando a arquitetura do modelo para melhorar o desempenho em vários idiomas. Esse projeto arquitetônico torna o CosyVoice 2 significativamente mais eficiente e preciso ao processar vários idiomas.
Correspondência de fluxo causal com reconhecimento de bloco: essa tecnologia inovadora permite que os recursos semânticos e acústicos sejam alinhados com o mínimo de latência, permitindo que o CosyVoice 2 se destaque na geração de fala em tempo real, especialmente para interação de voz em tempo real e aplicativos de streaming.
Conjunto de dados de comando ampliado: com mais de 1.500 horas de dados de treinamento, o CosyVoice 2 adiciona controle granular sobre diferentes sotaques, emoções e estilos de voz, tornando a síntese de fala mais flexível e expressiva. Quer se trate de um tom de voz caloroso ou de uma emoção tensa, o CosyVoice 2 é capaz de capturar e expressar isso com precisão.

4. desempenho do CosyVoice 2: como ele resolve problemas do mundo real

Em uma série de testes de avaliação rigorosos, o CosyVoice 2 demonstrou benefícios inegáveis, especialmente em termos de baixa latência, alta precisão e consistência de voz.

Baixa latência e alta eficiênciaCosyVoice 2 tem tempos de resposta tão baixos quanto 150 milissegundos na geração de fala, o que significa que ele pode ser ideal para aplicativos de voz em tempo real, como bate-papo por voz e interações de streaming.
Melhoria da precisão da pronúnciaCosyVoice 2: O CosyVoice 2 oferece aprimoramentos significativos para estruturas linguísticas complexas (por exemplo, polissilábicas, trava-línguas etc.), melhorando drasticamente a precisão da pronúncia e reduzindo os erros na síntese de fala cotidiana.
Desempenho consistente do alto-falanteSíntese de linguagem cruzada: O CosyVoice 2 é capaz de manter um alto grau de consistência em diferentes tarefas de síntese, seja na síntese de linguagem cruzada ou na síntese de zero-shot, e a naturalidade e a estabilidade da fala são amplamente garantidas.
multilinguismoO CosyVoice 2 também apresenta bom desempenho em benchmarks para idiomas como japonês e coreano e, apesar dos desafios com determinados conjuntos de caracteres sobrepostos, ele ainda demonstra o poder da síntese entre idiomas.
Resiliência em cenários desafiadoresCosyVoice 2: o CosyVoice 2 demonstrou maior clareza e precisão do que os modelos anteriores em alguns cenários de fala desafiadores (por exemplo, trava-línguas), superando as limitações técnicas anteriores.

5 Conclusão

O lançamento do CosyVoice 2 é um avanço importante na tecnologia de síntese de fala. Tecnologias inovadoras, como FSQ e correspondência de fluxo causal com reconhecimento de bloco, oferecem um forte suporte ao desempenho e à facilidade de uso do modelo, enquanto um grande conjunto de dados de treinamento e um controle preciso dos estilos de fala permitem que ele lide com uma ampla variedade de cenários complexos de aplicativos de fala.

Embora o CosyVoice 2 ainda precise ser aprimorado em termos de suporte a vários idiomas e processamento de cenários de idiomas complexos, ele estabelece uma base sólida para a futura tecnologia de síntese de fala, especialmente na aplicação de mídia de streaming e geração de fala em tempo real, que tem uma ampla perspectiva de desenvolvimento. Seja no campo do assistente de voz com IA, do atendimento inteligente ao cliente ou da tradução em tempo real, o CosyVoice 2 demonstra seu forte potencial e abre caminho para novos avanços na tecnologia de síntese de fala.

Referência: