Hoje vamos falar sobre uma tecnologia que está ficando cada vez mais quente - text-to-speech, também conhecida como TTS (Text-to-Speech). Em poucas palavras, trata-se de permitir que o computador leia o texto e o leia como se fosse uma fala humana. Nos últimos anos, desde a dublagem de vídeos curtos e a produção de audiolivros até o atendimento inteligente ao cliente e os assistentes virtuais, a figura do TTS é onipresente. Há também uma infinidade de ferramentas no mercado, algumas gratuitas, outras pagas, algumas de código aberto, outras de código fechado; há serviços on-line simples e fáceis de usar, e há também bibliotecas de desenvolvimento que exigem um certo nível técnico. Diante de tantas opções, como o usuário ou desenvolvedor comum deve escolher a que mais lhe convém?
Não se preocupe, hoje daremos uma olhada em algumas das ferramentas de TTS mais populares e representativas do mercado e veremos do que elas são capazes e onde podem ser usadas.
Fácil de usar, do tipo pronto para uso
Para os usuários que não querem usar códigos e desejam apenas gerar discursos rapidamente, há uma série de serviços on-line e ferramentas em pacotes que são preferíveis.
- Criador de TTSFerramenta on-line gratuita (disponível comercialmente). A vantagem é que ela suporta um grande número de idiomas, mais de 50, e inclui até mesmo dialetos como nordestino e cantonês, com uma ampla seleção de tons. É um bom ponto de partida para criadores que fazem vídeos curtos, podcasts ou criadores que precisam de conteúdo multilíngue. No entanto, o modelo técnico específico por trás dele não está claramente definido, e pode não ser tão natural e controlável em termos de som quanto as ferramentas mais profissionais.
- Edge-TTSO que é: Esse não é realmente um serviço autônomo, mas alguém encapsulou a funcionalidade TTS incorporada ao navegador Edge da Microsoft em uma biblioteca Python. O bom é que é fácil de chamar e gratuito, e a qualidade da voz é muito boa, afinal, é a tecnologia da Microsoft que está por trás disso. Também há suporte para vários idiomas e tons (mais de 40 idiomas e mais de 300 tons). A desvantagem é que ele depende da interface da Microsoft, a estabilidade e a disponibilidade a longo prazo podem ser variáveis, e os recursos de personalização são limitados. Adequado para aplicativos leves ou projetos pessoais para integração rápida.
Gigantes empresariais e serviços de nível profissional
Se você precisar de qualidade de voz de alto nível, um alto grau de estabilidade e uma grande variedade de opções de personalização, um serviço comercial geralmente é a melhor opção, mas, é claro, isso também significa pagar por ele.
- TTS do Microsoft AzureO que é: Esse é um dos benchmarks reconhecidos no setor. Com base na tecnologia de rede neural, a fala sintetizada é tão natural e suave que quase não pode ser confundida. Ele oferece opções avançadas de controle de emoções e a capacidade de ajustar a pronúncia, a velocidade da fala, as pausas etc. com SSML (Speech Synthesis Markup Language). Com suporte para mais de 140 idiomas e 400 tons, é a primeira opção para aplicativos corporativos, audiolivros de alta qualidade e assistentes virtuais profissionais. E, é claro, o preço é de classe empresarial.
- Semente-TTSTecnologia de voz: Essa é uma tecnologia desenvolvida pela ByteDance e, até o momento, parece não ter aberto totalmente o código-fonte de seu modelo principal. De acordo com o relatório técnico, ela se caracteriza pela capacidade de editar o conteúdo de voz e o controle fino da velocidade da fala, o que parece muito adequado para a pós-produção de audiolivros ou cenários que exigem o ajuste fino do conteúdo de voz. Atualmente, principalmente para chinês, o formulário específico do produto e o acesso à versão oficial de acompanhamento.
- Mecanismo de voz (da OpenAI?)O artigo original menciona esse nome, mas é importante observar que a OpenAI não parece ter divulgado oficialmente o nome desse sistema.
Voice Engine
Pode haver implementações de terceiros baseadas na tecnologia da OpenAI (por exemplo, GPT) no mercado ou que se refiram a seus projetos de pesquisa internos. Pode haver implementações de terceiros no mercado que se baseiam na tecnologia da OpenAI (por exemplo, GPT) ou se referem a seus projetos de pesquisa internos. A OpenAI é forte em tecnologia de fala, com muita atenção dada a seus recursos de clonagem e geração de fala, mas ainda não há um serviço explicitamente chamadoVoice Engine
Os produtos públicos estão disponíveis para uso direto por todos, e as fontes de informação precisam ser examinadas quando usadas.
O poder das comunidades de código aberto: liberdade e personalização
Para desenvolvedores e pesquisadores, as ferramentas TTS de código aberto oferecem maior liberdade e espaço para personalização. Você pode obter uma compreensão mais profunda dos princípios do modelo e modificá-lo e treiná-lo de acordo com suas necessidades.
- PaddleSpeechFlying Paddle: Um projeto de código aberto do Baidu Flying Paddle, especialmente otimizado para suporte ao idioma chinês. Um de seus destaques é o suporte à síntese de streaming, o que significa que ela pode ser gerada durante a reprodução, com baixa latência, muito adequada para a necessidade de resposta em tempo real à cena, como transmissão de voz em tempo real e atendimento inteligente ao cliente. Ele é baseado em
FastSpeech2
responder cantandoHiFiGAN
e outros modelos convencionais. - Coqui TTSProjeto de código aberto muito ativo, anteriormente conhecido como Mozilla TTS, cuja maior vantagem é uma grande biblioteca de modelos pré-treinados com suporte a mais de 1.100 idiomas (com base em seu modelo XTTS), o que é muito valioso para aplicativos que precisam lidar com vários idiomas, especialmente idiomas com poucos recursos. A comunidade é ativa e bem documentada.
- Casca: Por Suno AI (conhecido pela geração de música) foi desenvolvido, e o que o torna mais especial é que ele não só gera fala, mas também sons que não são de fala, como clipes de música, ruído de fundo, risos, gritos etc., e suporta a mistura de vários idiomas. Isso lhe confere um potencial único para uso em projetos de áudio criativos, design de som de jogos e outras áreas. Ele é baseado em Transformador Arquitetura.
- TensorFlowTTSComo o nome sugere, trata-se de um conjunto de ferramentas de TTS baseado no TensorFlow. Ele oferece suporte a uma variedade de modelos populares de TTS, como
Tacotron 2
eFastSpeech2
etc., em conjunto comMelGAN
e uso de vocoder. Essa é uma ótima opção para desenvolvedores familiarizados com o ecossistema do TensorFlow e para aqueles que realizam pesquisas acadêmicas para facilitar a experimentação de modelos e o desenvolvimento personalizado. - Discurso do peixeEste projeto se concentra na geração multilíngue mista, como a alternância natural entre chinês, inglês e japonês em uma única frase. Ele oferece suporte a
VITS2
eBert-VITS2
e outras arquiteturas de modelos mais recentes. Atraente para a produção de cenários como podcasts multilíngues, dublagem de filmes e TV, etc. - ChatTTSModelo de código aberto otimizado especificamente para cenários de diálogo. Apresenta bom desempenho em diálogos em inglês e chinês, gerando fala com características emocionais naturais (por exemplo, risos, hesitação, pausas no tom), o que faz com que os diálogos sintetizados soem mais realistas e interativos. Afirma-se que ele foi pré-treinado com 40.000 horas de dados.
Clonagem de voz: tenha uma voz exclusiva
A tecnologia de clonagem de voz permite que você use uma pequena quantidade (às vezes, apenas alguns segundos ou um minuto) de uma amostra da voz de alguém para sintetizar uma voz que fale com a voz dessa pessoa. Essa tecnologia é interessante, mas há riscos éticos, e é importante seguir as leis, os regulamentos e a ética ao usá-la.
- GPT-SoVITS: É uma combinação de
SoVITS
(um modelo popular para síntese de músicas e conversão de fala) eGPT
É um projeto de código aberto para a tecnologia. Ele afirma conseguir um bom efeito de clonagem com 1 minuto de fala e também tem algum suporte para dialetos chineses. Atualmente, é uma das soluções de clonagem de voz mais populares na comunidade. - OpenVoice: Por
MyShell.ai
Código aberto que não apenas clona vozes, mas também oferece controle preciso sobre as vozes clonadas, como ajuste de emoção, sotaque e entonação. Isso o torna útil em cenários que exigem personalização e expressividade, como a dublagem de comerciais e assistentes virtuais multilíngues. - Clonagem de voz em tempo realEste projeto fornece uma interface gráfica de usuário (GUI) que torna relativamente fácil para usuários não técnicos realizar experimentos de clonagem de fala. Ele se baseia no
SV2TTS
modelos, que podem não funcionar tão bem quanto os modelos mais recentes, mas superam a facilidade de uso. - F5-TTSEste projeto apresenta a tecnologia Diffusion Transformer (DiT) para clonagem de voz Zero-Shot, o que significa que pode ser possível realizar algum grau de imitação ou transformação de voz sem os dados de fala do locutor-alvo e oferecer suporte ao controle de emoções. Essa é uma direção de pesquisa relativamente nova.
- Mocking BirdO projeto de clonagem de fala de código aberto também atraiu muita atenção. Embora possa ter sido tecnicamente superado por programas mais recentes, ele ainda é informativo para a compreensão do desenvolvimento da tecnologia de clonagem de fala.
Outras ferramentas de interesse
Há também várias ferramentas que são exclusivas de cada um:
- VozVoxÉ principalmente para o idioma japonês e é especialmente bom para gerar sons em estilos secundários e de anime. É muito popular na comunidade de VTuber e criativos japoneses.
- EmotiVoiceNetEaseYouDao: o código-fonte aberto NetEaseYouDao, com foco na síntese de fala emocional, pode gerar fala com uma variedade de emoções, como felicidade, raiva, tristeza e alegria.
- MetaVoice-1BUm modelo de código aberto com 1B (bilhão) de parâmetros geralmente implica maior poder expressivo e maior qualidade de fala, mas também requer mais recursos computacionais.
- So-VITS-SVCConversão de voz para canto: Usado principalmente para conversão de voz para canto, que permite que uma música seja cantada na voz de outra pessoa.
SoVITS
Um ramo importante da tecnologia.
Como escolher?
Depois de ler tudo isso, você pode estar ainda mais confuso. Não se preocupe, aqui está uma ideia simples para escolher:
- Usuários regulares, vozes rápidas: Experimente.
TTS Maker
Ou descubra o que é baseado emEdge-TTS
de ferramentas on-line. - Desenvolvedores, para serem integrados ao aplicativo:
- Para obter alta qualidade e consistência com um orçamento limitado.
Microsoft Azure TTS
. - Precisa de otimização chinesa e baixa latência.
PaddleSpeech
. - Requer a mais ampla gama de suporte a idiomas.
Coqui TTS
. - Deseja brincar com ideias de som e paisagem sonora.
Bark
. - familiaridade com
TensorFlow
Ecologia.TensorFlowTTS
. - Necessidade de lidar com a combinação de vários idiomas.
Fish Speech
. - Concentre-se em cenários de diálogo.
ChatTTS
.
- Para obter alta qualidade e consistência com um orçamento limitado.
- Deseja brincar de clonagem de voz:
- requisito específico:
- Vozes secundárias japonesas.
VoiceVox
. - Expressão emocional rica.
EmotiVoice
.
- Vozes secundárias japonesas.
É importante observar que os projetos de código aberto geralmente exigem algum conhecimento técnico para serem implantados e usados, e os resultados também podem exigir depuração e otimização. Os serviços comerciais, por outro lado, oferecem uma interface mais estável e fácil de usar, mas têm custos.
A tecnologia TTS está evoluindo muito rapidamente, com novos modelos e ferramentas sendo lançados o tempo todo. A escolha da ferramenta depende, em última análise, de suas necessidades específicas, orçamento e habilidades técnicas. Esperamos que este compêndio o ajude a encontrar o ponto de partida certo nesse campo em rápida evolução.
Resumo dos links de recursos relacionados
Para facilitar sua localização, aqui está uma compilação dos endereços oficiais ou da base de código de algumas das ferramentas mencionadas no artigo:
- Criador de TTS: https://ttsmaker.com/zh-cn (serviços on-line)
- TTS do Microsoft Azure:: https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/ (serviços comerciais)
- PaddleSpeech: https://github.com/PaddlePaddle/PaddleSpeech (código aberto)
- VozVox: https://github.com/VOICEVOX/voicevox (código aberto)
- TensorFlowTTS: https://github.com/TensorSpeech/TensorFlowTTS (código aberto)
- Edge-TTS: https://github.com/rany2/edge-tts (biblioteca de código aberto)
- ChatTTS: https://github.com/2noise/ChatTTS (código aberto)
- Semente-TTS:: Relatórios técnicos, documentos, ferramentas de avaliação (modelo principal não totalmente de código aberto)
- Discurso do peixe: https://github.com/fishaudio/fish-speech (código aberto)
- GPT-SoVITS: https://github.com/RVC-Boss/GPTSoVITS (código aberto)
- OpenVoice: https://github.com/myshell-ai/OpenVoice (código aberto)
- Casca: https://github.com/suno-ai/bark (código aberto)
- Coqui TTS: https://github.com/coqui-ai/tts (código aberto)
- Clonagem de voz em tempo real: https://github.com/CorentinJ/Real-Time-Voice-Cloning (código aberto)
- F5-TTS: https://github.com/SWivid/F5-TTS (código aberto)
- EmotiVoice: https://github.com/netease-youdao/EmotiVoice (código aberto)
- MetaVoice-1B: https://github.com/metavoiceio/metavoice-src (código aberto)
- So-VITS-SVC: https://github.com/svc-develop-team/so-vits-svc (código aberto)
- Mocking Bird: https://github.com/babysor/MockingBird (código aberto)
- FUNAudioLLM-CosyVoice: https://github.com/FunAudioLLM/CosyVoice (código aberto)
- VoiceCraft: https://github.com/jasonppy/VoiceCraft (código aberto)
- Parler-TTS: https://github.com/huggingface/parler-tts (código aberto)
- MáscaraGCT:: https://hf-mirror.com/amphion/MaskGCT (espelhos de código aberto)