Introdução geral
O Zide Voice é uma plataforma de síntese de voz com tecnologia avançada de IA. Os usuários podem simplesmente carregar um trecho de voz, que pode ser complementado com texto para gerar clipes de voz realistas e emocionais. A plataforma é equipada com recursos como personalização rápida de personagens, geração de voz baseada em nuvem e síntese de voz antropomórfica. Não é necessário fazer download de nenhum software, e a interface API permite que os desenvolvedores a integrem rapidamente a vários produtos, o que é adequado para todos os tipos de usuários comerciais.
Lista de funções
- Serviço de conversão de texto em fala
- Múltiplas opções de pronunciador
- Saída de voz de alta qualidade
- Personalização de personagens com voz personalizada
Usando a Ajuda
- Digite a frase em chinês a ser sintetizada na caixa de texto
- Escolhendo o pronunciador correto
- Clique em Synthesis para obter o arquivo de voz
gerador de fala
O Speech Generator é uma ferramenta da Self-Tech AI Speech que fornece ferramentas de geração de fala com um alto grau de visualização, fácil configuração e salvamento no servidor.
prancheta
A área superior esquerda é o painel Clipes do Gerador de voz, onde são exibidos todos os clipes que podem ser usados para gerar a fala. Cada clipe pode ser selecionado para posicionamento de inserção ou posicionamento de reprodução. Cada clipe pode ser selecionado individualmente para um personagem e a voz correspondente. A parte superior do clipe é o que é exibido e a parte inferior contém algumas informações, incluindo (da esquerda para a direita):
- comando de vozVermelho significa que não há voz e que ela precisa ser gerada; verde significa que ela foi gerada e pode ser reproduzida diretamente.
- Comprimento da vozDuração da voz: A duração da voz em segundos.
- papel de vozCaracterística da voz: O caráter da voz, incluindo status aleatório ou especificado.
- Botão ExcluirExcluir o segmento: Excluir o segmento.
Painel de inserção
A área inferior esquerda é a caixa de inserção de clipe do gerador de voz. Digite um texto na caixa de entrada e clique no clipe para selecionar a posição de inserção; se não for selecionado, ele será inserido no final por padrão. O comprimento de cada segmento precisa ser controlado manualmente; o comprimento recomendado é de 10s. O texto inserido será dividido automaticamente, o separador de segmento atual é ".! ;:"; se não houver separador, você precisará adicioná-lo manualmente. No momento, só é possível inserir texto sem letras em inglês; se você tentar inseri-lo, ocorrerá um erro.
painel de reprodução
O painel de reprodução pode reproduzir todas as vozes; se nenhum clipe for selecionado, todas as vozes serão reproduzidas por padrão; se um clipe for selecionado, a reprodução começará a partir desse clipe.
Painel de configuração
- Gerar clipeA função de Generate Clip é converter o texto inserido em voz, a voz gerada será salva no servidor e poderá ser vista no painel Clip. A voz gerada será salva automaticamente, não é necessário salvá-la manualmente. Observe que clicar em Generate Clip substituirá a voz original; se quiser manter mais de uma versão da voz, faça o download e salve-a você mesmo.
- Uso de funções do sistemaSe estiver marcada, as funções do sistema aparecerão no menu Funções e serão aleatorizadas para as funções do sistema quando selecionadas aleatoriamente. Se desmarcada, somente as funções de propriedade do usuário serão exibidas.
- Configuração de funções de fragmentoQuando você clica em um clipe, ele fica azul e o painel de configuração se expande para permitir que você selecione ou randomize os personagens. Depois de selecionar o personagem especificado, você pode escolher a voz do personagem que deseja imitar. Aleatório também é uma opção. Se a tag do personagem estiver configurada no gerador de caracteres, esse painel também poderá ser selecionado.
Salvar download
O painel Save (Salvar) permite que você salve esse projeto no servidor. No momento, na fase beta, cada usuário pode ter apenas um projeto padrão. O painel Download All permite fazer download de todos os clipes de voz localmente.