Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Projeto operacional de código aberto que integra vários serviços avançados de síntese de fala

Introdução geral

O Open-VoiceCanvas é uma plataforma de síntese de voz de código aberto desenvolvida pela equipe da ItusiAI. Ela é compatível com mais de 50 idiomas, converte texto em fala natural e permite que você clone uma voz personalizada fazendo upload de áudio. O projeto integra os serviços de fala OpenAI TTS, AWS Polly e MiniMax, e oferece uma ampla gama de opções de timbre e ajuste da taxa de fala. O código 100% é de código aberto e está hospedado no GitHub, onde os usuários podem baixá-lo e modificá-lo gratuitamente. Ele também é compatível com os logins do Google e do GitHub, bem como com os pagamentos do Stripe para facilitar o desbloqueio de recursos avançados. Essa ferramenta é adequada para desenvolvedores, criadores de conteúdo e usuários comuns.

Integração de uma variedade de modelos avançados de síntese de fala do projeto de operações de código aberto-1


 

Lista de funções

  • Oferece suporte à conversão de texto em fala em mais de 50 idiomas.
  • Oferece uma variedade de serviços de voz: OpenAI TTS (fala natural), AWS Polly (multilíngue), MiniMax (chinês otimizado).
  • Suporta a seleção de voz masculina e feminina com velocidade de fala ajustável.
  • Oferece a função de clonagem de som, os usuários podem fazer upload de áudio para criar tons personalizados.
  • Suporta upload de arquivos de texto e download de arquivos de áudio, processa textos longos sem pressão.
  • Logins integrados do Google e do GitHub, interface em vários idiomas e temas escuros/claros.
  • Os serviços de assinatura estão disponíveis por meio do Stripe, incluindo avaliações gratuitas, pagamentos mensais/anuais e faturamento por volume.

 

Usando a Ajuda

O Open-VoiceCanvas é uma poderosa ferramenta de código aberto. Aqui está um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.

Processo de instalação

  1. Preparação do ambiente
    Antes de começar, verifique se as seguintes ferramentas estão instaladas em seu computador:

    • Git: para fazer download de código.
    • Node.js (recomendado 18.x ou superior): executa o front-end e o back-end.
    • npm: ferramenta de gerenciamento de pacotes para Node.js.
      Verifique se ele está instalado:
git --version
node --version
npm --version

Se ele estiver ausente, você pode acessar o site oficial para fazer o download e instalá-lo.

  1. Código de clonagem
    Abra um terminal e digite o seguinte comando para fazer o download do projeto:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

Vá para o catálogo de projetos:

cd Open-VoiceCanvas
  1. Instalação de dependências
    Execute o seguinte comando para instalar as bibliotecas necessárias:
npm install

Se a rede estiver lenta, use um espelho doméstico:

npm install --registry=https://registry.npmmirror.com
  1. Configuração de variáveis de ambiente
    No diretório raiz do projeto, crie o arquivo .env adicione a seguinte configuração (você precisa substituí-la por sua própria chave):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

Essas chaves precisam ser obtidas nos sites oficiais dos serviços correspondentes, como OpenAI, AWS, MiniMax, Neon, Stripe e GitHub/Google OAuth.

  1. Execução de uma migração de banco de dados
    Configure o banco de dados e execute:
npx prisma migrate dev

Isso inicializa o banco de dados PostgreSQL.

  1. procedimento de acionamento
    Digite o seguinte comando para iniciar o servidor de desenvolvimento:
npm run dev

Após a inicialização, o navegador acessa o http://localhost:3000Você pode ver a interface.

Funções principais

conversão de texto em fala

  1. Abra a página da Web, faça login e vá para a tela principal.
  2. Digite o texto na caixa Text Input (Entrada de texto), por exemplo, "Hello, it's Wednesday" (Olá, é quarta-feira).
  3. Selecione o idioma (mais de 50 idiomas suportados, por exemplo, chinês, inglês, japonês etc.).
  4. Escolha um serviço de voz: OpenAI TTS, AWS Polly ou MiniMax.
  5. Escolha um timbre (masculino ou feminino, como "nova" da OpenAI ou "Joanna" da AWS).
  6. Ajuste a velocidade da fala (intervalo de 0,5 a 2,0, 1,0 é normal).
  7. Clique em "Generate" (Gerar) para visualizar o áudio em alguns segundos.
  8. Clique em "Download" para salvar como um arquivo MP3.

clonagem de som

  1. Vá para a página "Sound Cloning" (Clonagem de som).
  2. Clique em "Upload Audio" e selecione um clipe de áudio nítido de 10 a 20 segundos (formato WAV ou MP3).
  3. Digite o nome do tom, por exemplo, "My Voice".
  4. Clique em "Clone" e aguarde de 1 a 2 minutos para que o processo seja concluído.
  5. Após a clonagem bem-sucedida, o novo tom aparecerá na lista de tons.
  6. Retorne à página Text-to-Speech (Texto para fala), selecione Clone Tone (Clonar tom) e insira o texto para gerar a fala.

Processamento de documentos

  1. Clique em "Upload Text File" (Carregar arquivo de texto) na tela principal.
  2. Selecione um .txt o conteúdo é carregado automaticamente na caixa de entrada.
  3. Gerar áudio após definir o idioma, o timbre e a velocidade da fala.
  4. O texto longo é segmentado automaticamente para garantir uma geração suave.

Assinar e fazer login

  1. Clique em "Sign in" (Fazer login) no canto superior direito e escolha a autorização da conta do Google ou do GitHub.
  2. Faça login para visualizar cotas de caracteres e contagens de clones.
  3. Clique em "Subscribe" e escolha um plano de avaliação gratuita, mensal (pagamento mensal) ou anual (pagamento anual).
  4. Insira suas informações de pagamento via Stripe e desbloqueie mais recursos ao concluir sua assinatura.

advertência

  • Requisitos de áudioO áudio usado para a clonagem deve ser claro e sem ruídos de fundo.
  • segurança das chavesNão dê o seu nome. .env no arquivo.
  • requisito de redeModelos: Os modelos precisam ser baixados na primeira execução para manter a rede estável.
  • Suporte técnicoSe tiver problemas, você pode registrar um problema no GitHub.

Com essas etapas, você pode aproveitar ao máximo os recursos do Open-VoiceCanvas. Seu design de código aberto também permite a personalização do desenvolvedor, como a adição de novos serviços de voz ou o ajuste da interface.

 

cenário do aplicativo

  1. criação de conteúdo
    Os âncoras podem usá-lo para gerar narração em vários idiomas e economizar tempo de gravação.
    Descrição do cenário: um YouTuber gera comentários em vídeo em chinês e inglês e baixa diretamente o áudio para edição.
  2. Suporte educacional
    Os professores convertem livros didáticos em fala para criar áudio instrucional.
    Descrição do cenário: um professor de inglês faz upload de um texto e gera um áudio de pronúncia americana para os alunos praticarem a audição.
  3. Aplicativos personalizados
    Os desenvolvedores clonam suas próprias vozes para criar assistentes de voz exclusivos.
    Descrição do cenário: um programador clona uma voz e a integra em um sistema doméstico inteligente para transmitir a previsão do tempo com sua própria voz.
  4. uso recreativo
    Os usuários geram vozes engraçadas para compartilhar com os amigos.
    Cenário: alguém gera um áudio de "Feliz aniversário" na voz de um amigo como um presente surpresa.

 

QA

  1. Quais serviços de voz são suportados?
    Suporte para OpenAI TTS (fala natural), AWS Polly (multilíngue) e MiniMax (otimizado para chinês).
  2. O que é necessário para clonar uma voz?
    Precisa de 10 a 20 segundos de áudio nítido no formato WAV ou MP3 com o mínimo possível de ruído de fundo.
  3. Qual é a diferença entre a versão gratuita e a versão paga?
    A versão gratuita tem limites de caracteres e clones; a versão paga oferece mais cotas e opções de tons.
  4. Como faço para corrigir uma falha de inicialização?
    Verifique a versão do Node.js (recomenda-se a versão 18.x) para garantir que as variáveis de ambiente estejam configuradas corretamente e que as dependências estejam totalmente instaladas.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Projeto operacional de código aberto que integra vários serviços avançados de síntese de fala
pt_BRPortuguês do Brasil