Introdução geral
O Open-VoiceCanvas é uma plataforma de síntese de voz de código aberto desenvolvida pela equipe da ItusiAI. Ela é compatível com mais de 50 idiomas, converte texto em fala natural e permite que você clone uma voz personalizada fazendo upload de áudio. O projeto integra os serviços de fala OpenAI TTS, AWS Polly e MiniMax, e oferece uma ampla gama de opções de timbre e ajuste da taxa de fala. O código 100% é de código aberto e está hospedado no GitHub, onde os usuários podem baixá-lo e modificá-lo gratuitamente. Ele também é compatível com os logins do Google e do GitHub, bem como com os pagamentos do Stripe para facilitar o desbloqueio de recursos avançados. Essa ferramenta é adequada para desenvolvedores, criadores de conteúdo e usuários comuns.
Lista de funções
- Oferece suporte à conversão de texto em fala em mais de 50 idiomas.
- Oferece uma variedade de serviços de voz: OpenAI TTS (fala natural), AWS Polly (multilíngue), MiniMax (chinês otimizado).
- Suporta a seleção de voz masculina e feminina com velocidade de fala ajustável.
- Oferece a função de clonagem de som, os usuários podem fazer upload de áudio para criar tons personalizados.
- Suporta upload de arquivos de texto e download de arquivos de áudio, processa textos longos sem pressão.
- Logins integrados do Google e do GitHub, interface em vários idiomas e temas escuros/claros.
- Os serviços de assinatura estão disponíveis por meio do Stripe, incluindo avaliações gratuitas, pagamentos mensais/anuais e faturamento por volume.
Usando a Ajuda
O Open-VoiceCanvas é uma poderosa ferramenta de código aberto. Aqui está um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.
Processo de instalação
- Preparação do ambiente
Antes de começar, verifique se as seguintes ferramentas estão instaladas em seu computador:- Git: para fazer download de código.
- Node.js (recomendado 18.x ou superior): executa o front-end e o back-end.
- npm: ferramenta de gerenciamento de pacotes para Node.js.
Verifique se ele está instalado:
git --version
node --version
npm --version
Se ele estiver ausente, você pode acessar o site oficial para fazer o download e instalá-lo.
- Código de clonagem
Abra um terminal e digite o seguinte comando para fazer o download do projeto:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
Vá para o catálogo de projetos:
cd Open-VoiceCanvas
- Instalação de dependências
Execute o seguinte comando para instalar as bibliotecas necessárias:
npm install
Se a rede estiver lenta, use um espelho doméstico:
npm install --registry=https://registry.npmmirror.com
- Configuração de variáveis de ambiente
No diretório raiz do projeto, crie o arquivo.env
adicione a seguinte configuração (você precisa substituí-la por sua própria chave):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
Essas chaves precisam ser obtidas nos sites oficiais dos serviços correspondentes, como OpenAI, AWS, MiniMax, Neon, Stripe e GitHub/Google OAuth.
- Execução de uma migração de banco de dados
Configure o banco de dados e execute:
npx prisma migrate dev
Isso inicializa o banco de dados PostgreSQL.
- procedimento de acionamento
Digite o seguinte comando para iniciar o servidor de desenvolvimento:
npm run dev
Após a inicialização, o navegador acessa o http://localhost:3000
Você pode ver a interface.
Funções principais
conversão de texto em fala
- Abra a página da Web, faça login e vá para a tela principal.
- Digite o texto na caixa Text Input (Entrada de texto), por exemplo, "Hello, it's Wednesday" (Olá, é quarta-feira).
- Selecione o idioma (mais de 50 idiomas suportados, por exemplo, chinês, inglês, japonês etc.).
- Escolha um serviço de voz: OpenAI TTS, AWS Polly ou MiniMax.
- Escolha um timbre (masculino ou feminino, como "nova" da OpenAI ou "Joanna" da AWS).
- Ajuste a velocidade da fala (intervalo de 0,5 a 2,0, 1,0 é normal).
- Clique em "Generate" (Gerar) para visualizar o áudio em alguns segundos.
- Clique em "Download" para salvar como um arquivo MP3.
clonagem de som
- Vá para a página "Sound Cloning" (Clonagem de som).
- Clique em "Upload Audio" e selecione um clipe de áudio nítido de 10 a 20 segundos (formato WAV ou MP3).
- Digite o nome do tom, por exemplo, "My Voice".
- Clique em "Clone" e aguarde de 1 a 2 minutos para que o processo seja concluído.
- Após a clonagem bem-sucedida, o novo tom aparecerá na lista de tons.
- Retorne à página Text-to-Speech (Texto para fala), selecione Clone Tone (Clonar tom) e insira o texto para gerar a fala.
Processamento de documentos
- Clique em "Upload Text File" (Carregar arquivo de texto) na tela principal.
- Selecione um
.txt
o conteúdo é carregado automaticamente na caixa de entrada. - Gerar áudio após definir o idioma, o timbre e a velocidade da fala.
- O texto longo é segmentado automaticamente para garantir uma geração suave.
Assinar e fazer login
- Clique em "Sign in" (Fazer login) no canto superior direito e escolha a autorização da conta do Google ou do GitHub.
- Faça login para visualizar cotas de caracteres e contagens de clones.
- Clique em "Subscribe" e escolha um plano de avaliação gratuita, mensal (pagamento mensal) ou anual (pagamento anual).
- Insira suas informações de pagamento via Stripe e desbloqueie mais recursos ao concluir sua assinatura.
advertência
- Requisitos de áudioO áudio usado para a clonagem deve ser claro e sem ruídos de fundo.
- segurança das chavesNão dê o seu nome.
.env
no arquivo. - requisito de redeModelos: Os modelos precisam ser baixados na primeira execução para manter a rede estável.
- Suporte técnicoSe tiver problemas, você pode registrar um problema no GitHub.
Com essas etapas, você pode aproveitar ao máximo os recursos do Open-VoiceCanvas. Seu design de código aberto também permite a personalização do desenvolvedor, como a adição de novos serviços de voz ou o ajuste da interface.
cenário do aplicativo
- criação de conteúdo
Os âncoras podem usá-lo para gerar narração em vários idiomas e economizar tempo de gravação.
Descrição do cenário: um YouTuber gera comentários em vídeo em chinês e inglês e baixa diretamente o áudio para edição. - Suporte educacional
Os professores convertem livros didáticos em fala para criar áudio instrucional.
Descrição do cenário: um professor de inglês faz upload de um texto e gera um áudio de pronúncia americana para os alunos praticarem a audição. - Aplicativos personalizados
Os desenvolvedores clonam suas próprias vozes para criar assistentes de voz exclusivos.
Descrição do cenário: um programador clona uma voz e a integra em um sistema doméstico inteligente para transmitir a previsão do tempo com sua própria voz. - uso recreativo
Os usuários geram vozes engraçadas para compartilhar com os amigos.
Cenário: alguém gera um áudio de "Feliz aniversário" na voz de um amigo como um presente surpresa.
QA
- Quais serviços de voz são suportados?
Suporte para OpenAI TTS (fala natural), AWS Polly (multilíngue) e MiniMax (otimizado para chinês). - O que é necessário para clonar uma voz?
Precisa de 10 a 20 segundos de áudio nítido no formato WAV ou MP3 com o mínimo possível de ruído de fundo. - Qual é a diferença entre a versão gratuita e a versão paga?
A versão gratuita tem limites de caracteres e clones; a versão paga oferece mais cotas e opções de tons. - Como faço para corrigir uma falha de inicialização?
Verifique a versão do Node.js (recomenda-se a versão 18.x) para garantir que as variáveis de ambiente estejam configuradas corretamente e que as dependências estejam totalmente instaladas.