Conch Speech (MiniMax Audio): ferramenta de IA para gerar discurso natural

Recursos mais recentes de IAAtualizado há 3 meses Círculo de compartilhamento de IA

34.7K 00

Introdução geral

O MiniMax Audio é uma ferramenta de geração de fala com IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e vários sotaques. Os usuários podem inserir texto, carregar arquivos ou links para gerar áudio facilmente, o que é adequado para a produção de audiolivros, podcasts e outros conteúdos.

A versão nacional (hailuoai.com) e a versão internacional (minimax.io) são semelhantes em termos de funcionalidade, mas a versão internacional se concentra mais no processamento de textos muito longos (até 200.000 caracteres) e também oferece planos de assinatura flexíveis. Com um bônus diário de 4.000 créditos (cerca de 5 minutos de geração de áudio), a versão paga oferece suporte ao uso comercial e a mais recursos, além de ser fácil de usar, o que a torna popular entre criadores e desenvolvedores.
A versão doméstica é atualmente gratuita por tempo limitado, sem restrições de uso.

Conch Voice (versão doméstica)

MiniMax Audio (versão internacional)

Lista de funções

conversão de texto em falaTexto de entrada, geração rápida de fala natural, suporte a vários idiomas e tons.
clonagem de falaCarregar 10 segundos de áudio para replicar um som altamente semelhante.
Processamento de texto extra longoA versão internacional suporta 200.000 caracteres por vez, enquanto a versão nacional é limitada a 5.000 ou 10.000 caracteres.
Suporte a documentos e linksCarregar um arquivo ou inserir um URL para extrair texto e gerar áudio.
controle emocionalEmoções de voz: ajuste as emoções de voz, como feliz, calmo (a versão paga oferece mais opções).
cobertura multilíngueIdiomas: Mais de 30 idiomas são suportados, e a versão gratuita é limitada a 16.
Gerenciamento de históricoVisualização, exclusão ou organização de registros gerados.
Integração de APIFornecimento de interfaces de desenvolvedor para incorporar outros aplicativos.

Usando a Ajuda

O MiniMax Audio não requer instalação e funciona diretamente da Web. As versões doméstica e internacional são basicamente as mesmas; aqui está um guia detalhado.

Como começar

Acesse a versão nacional em https://hailuoai.com/audio ou a versão internacional em https://www.minimax.io/audio.
Clique em "Login" para se registrar ou fazer login com seu endereço de e-mail.
Depois de fazer o login, você entra na tela principal, que contém caixas de entrada de texto e opções de função.

Operações básicas para geração de fala

entradaDigite algo na caixa de texto, como "Welcome to MiniMax Audio" (Bem-vindo ao MiniMax Audio).
Selecione o idioma e o tomSelecione um idioma (por exemplo, "chinês") e um tom (por exemplo, "voz masculina - baixa").
Gerar áudioClique em "Generate" (Gerar) e ouça ou faça o download do arquivo MP3 em alguns segundos.
Ver ConsumoCréditos: A versão internacional mostra créditos (1 caractere inglês = 1 ponto, 1 caractere chinês = 2 pontos), o que é consistente com a versão nacional.

Uso de arquivos ou links

Carregamento de arquivosClique em "Upload File" (Carregar arquivo), compatível com TXT, PDF, etc., e extraia o texto automaticamente.
Inserir linkColar o URL da página da Web e clicar em "Load" (Carregar) para obter o conteúdo.
Processo de geraçãoConfirme o texto e clique em "Generate" (Gerar) para fazer o download do áudio.

Função de clonagem de voz

Preparação de amostrasGravação: Grave mais de 10 segundos de áudio nítido e salve-o como MP3 ou WAV.
Fazer upload e criarFaça upload na opção "Voice Clone" e clique em "Create Voice".
Clonagem de aplicativosSelecione o novo tom e digite o texto para gerar o áudio.
Descrição das restriçõesA versão gratuita é limitada a 3 clones, a versão Starter a 10 clones e a versão Standard a 100 clones.

Extensão do texto e créditos

edição internacionalProcessamento assíncrono de texto longo: 200.000 caracteres por vez.
versão domésticaModo HD: o modo HD é limitado a 5.000 caracteres e o modo Turbo a 10.000 caracteres.
Créditos da versão internacionalA versão gratuita oferece 4.000 pontos por dia (cerca de 5 minutos de áudio), a versão Starter, 100.000 pontos por mês (cerca de 2 horas) e a versão Standard, 1.000.000 pontos (cerca de 20 horas).

Assinaturas e recargas (versão internacional)

versão gratuitaAproximadamente 2,5 horas de áudio por mês, limitado a 16 idiomas.
Edição para iniciantesUS$ 5/mês, cerca de 4,5 horas, geração mais rápida, suporta uso comercial.
Edição padrãoUS$ 30/mês por aproximadamente 22,5 horas, com um limite maior de clonagem.
recarga (dinheiro em um cartão)US$ 30 por 1 milhão de pontos, mínimo de US$ 5, sem assinatura.

Uso da API

Obter a chaveInscreva-se em https://www.minimax.io/platform/document/T2AV2 ou na página da API doméstica depois de fazer login. <API Key>.
exemplo de chamada::

curl -X POST https://api.minimax.io/audio \
-H "Authorization: Bearer <API Key>" \
-H "Content-Type: application/json" \
-d '{"text": "你好，这是测试", "language": "zh", "voice": "female_gentle"}'

endereço do arquivo: Veja o link acima para a versão internacional e https://hailuoai.com/api para a versão nacional.

Instruções de uso

edição internacionalFonte a ser rotulada (uso pessoal), o uso comercial requer uma assinatura Starter ou Standard.
Recomendações de otimizaçãoAjuste do timbre ou da geração de segmentos quando o áudio estiver ruim.

Simples de operar, você pode começar a trabalhar em minutos, adequado para uma variedade de necessidades.

cenário do aplicativo

Produção de audiolivros
Converta textos longos em áudio para gerar audiolivros para compartilhar ou publicar.
produção de podcast
Insira scripts para gerar podcasts rapidamente e economizar tempo de gravação.
Auxílios educacionais
Converte os materiais do curso em áudio para facilitar a audição ou para ajudar os deficientes visuais a aprender.
dublagem de jogos
Use a clonagem de voz para gerar vozes exclusivas para seus personagens e aprimorar a experiência.

QA

Qual é a diferença entre a versão nacional e a internacional?
A versão internacional suporta 200.000 caracteres de texto muito longo, enquanto a versão nacional é limitada a 5.000 ou 10.000 caracteres, mas é gratuita por tempo limitado.
Qual é a duração da versão internacional gratuita?
4.000 pontos de bônus por dia, aproximadamente 5 minutos de áudio, até 2,5 horas por mês.
Quais são os idiomas suportados?
Mais de 30 espécies, versão gratuita limitada a 16 espécies, como chinês, inglês, etc.
Quanto tempo de áudio é necessário para a clonagem de voz?
Mínimo de 10 segundos de áudio nítido.
Ele está disponível comercialmente?
As edições internacionais exigem uma assinatura Starter ou Standard; as edições nacionais não são explicitamente limitadas.