Aprendizagem pessoal com IA
e orientação prática

Lançamento doméstico do Conch Voice, que pode ser o melhor produto chinês de dublagem de voz

Não há produção nacional para o conteúdo da produção de excelentes produtos de locução, ou você só pode usar a API ou o modelo de som do produto não funciona.

Por exemplo, no exterior ElevenLabs Embora o inglês seja bom, mas o chinês é realmente atraente, o principal problema do modelo de código aberto é que a qualidade do modelo é relativamente ruim, especificamente na qualidade do som ruim, há uma clara sensação de corrente, cenas misturadas em vários idiomas e expressão de palavras com vários sons e significados imprecisos e assim por diante.


O MiniMax foi lançado há um mês. Versão internacional do Conch AI, função de clonagem de segunda voz on-line, leitura em voz alta em chinês e inglês muito boa!O recurso de geração de voz foi lançado na página doméstica há alguns dias, e fiquei muito surpreso quando o experimentei.Oferece suporte a mais de 17 idiomas, controle preciso de várias expressões emocionais e centenas de bibliotecas de sons para atender a diferentes necessidades..

O mais importante é que a qualidade do áudio é realmente alta, sem nenhum dos problemas usuais com a geração de som, e uma opção altamente personalizável que o torna diferente quando ajustado, mesmo que o mesmo tom seja usado.

Vamos dar uma olhada nessa pequena peça que criei e, em seguida, analisaremos a eficácia dos recursos de geração de fala do Conch, tanto em termos de funcionalidade quanto de eficácia.

 

Opções detalhadas de personalização de recursos

Vamos dar uma olhada nos recursos do Conch Voice, que é realmente avançado e detalhado. O Conch tem uma enorme biblioteca de sons que suporta mais de 17 idiomas.Cada idioma suporta uma ampla variedade de tons, e você pode escolher livremente entre vozes masculinas e femininas, bem como idades..

Por exemplo, nosso roteiro de vídeo precisa de um homem idoso com senso de justiça, que pode ser acessado rapidamente por meio desse filtro.

Também é possível personalizar o tom em detalhes depois que ele for selecionado.

Em primeiro lugar, você pode personalizar a emoção do tom, incluindo feliz, triste, irritado e outros cinco ou seis tipos de emoções. Por exemplo, no áudio a seguir, mostro o desempenho emocional diferente do tom de namoradas calorosas, você pode ouvir claramente, muito natural.

Em seguida, temos a velocidade da fala, que é muito boa de entender, quanto maior o valor, mais rápido ele fala; o volume também é muito bom de entender, quanto maior o valor da voz, mais alta é a voz; o tom, que eu tentei resumir, pode ser entendido como o valor de quanto maior a voz, mais aguda, menor o valor da voz, mais suave.

Ao controlar essas quatro opções de personalização, nósEle pode ser ajustado para soar muito diferente, mesmo que você escolha o mesmo tom, o que é muito divertido de experimentar!.

Outra dica é adicionar '' onde você precisa adicionar uma pausa. Esse tipo de marcador pode fazer com que o modelo gere uma pausa no som por um tempo específico.

 

Efeitos poderosos de geração

Além da riqueza do timbre, a ontologia do modelo de concha também é muito avançada. Usamos alguns TTS de código aberto e sabemos que muitos modelos dos problemas mais comuns são os problemas de qualidade de som, há uma sensação de corrente, alguma distorção, alguns são deliberadamente adicionados, outros são problemas de treinamento.

Aqui encontrei um parágrafo relativamente longo que escrevi há algum tempo para ele gerar um pouco de ditado queVocê pode ouvir a qualidade do som, que é muito boa, e as pausas são naturais, e ele dá ênfase quando necessário..

Outro problema comum com a modelagem de fala é a geração de conteúdo muito longo.Muitos modelos suportam textos muito curtos, mas o Conch suporta até 10.000 caracteres.Em geral, esse é o tamanho de manuscritos mais longos e romances de capítulos, e é perfeitamente adequado.

A seguir, há algum tempo, encontrei um Wu Enda com duas mil palavras do manuscrito que ele leu muito bem e sem problemas; a velocidade de geração também é muito rápida, ele pode gerar enquanto visualiza, economizando muito tempo!

O último problema mais complicado é a cena mista de vários idiomas e a cena polifônica. Alguns modelos de fala relativamente bons também costumam ter problemas. Especificamente, a IA gerou um texto de teste, um parágrafo contém cinco idiomas diferentes e a concha lê perfeitamente.

Bom dia! Je suis très heureux de vous rencontrer. Ich liebe Musik und Kunst. Isso me deixa muito feliz. Bons dias, amigos! Vamos almoçar.

Essa é uma cena polifônica, e ele determina com precisão a pronúncia de "walk" (háng), "first" (xíng), "bank" (háng) e "trip" (xíng) em suas diferentes posições, e lida muito bem com enunciados polifônicos muito complexos.

Vou dar um passo à frente hoje e parar quando estiver em uma linha. Tenho de ir ao banco amanhã, portanto, se ficar preso em um engarrafamento, minha programação poderá ser afetada.

Isso é tudo para a introdução, você pode brincar mais com ela e usá-la nos seguintes lugares:

Voz de concha: https://hailuoai.com/audioHailuo

Serviço doméstico da API: https://platform.minimaxi.com/document/T2AV2

 

No ano passado, eu estava sempre conversando com meus amigos sobre quando haveria um produto de voice-over poderoso como o ElevenLabs na China, e agora temos resultados ainda melhores do que o ElevenLabs e, em 24 anos, criamos modelos que rivalizam com o melhor nível da categoria, de imagem a vídeo e áudio, por isso espero que os fornecedores domésticos de IA possam nos dar mais surpresas este ano.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Lançamento doméstico do Conch Voice, que pode ser o melhor produto chinês de dublagem de voz

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil