Introdução geral
O Voice-Pro é uma ferramenta multifuncional baseada na Gradio WebUI que oferece suporte a conversão de fala em texto, conversão de texto em fala, tradução em tempo real, downloads de vídeos do YouTube e separação de voz humana. Ele integra as tecnologias Whisper, Faster-Whisper e Whisper-Timestamped para fornecer processamento de áudio e tradução eficientes para vários idiomas e cenários.
Lista de funções
- conversão de voz em textoSuporte a Whisper, Faster-Whisper e Whisper-Timestamped, proporcionando um reconhecimento de fala altamente preciso.
- conversão de texto em falaSuporte a Edge-TTS e F5-TTS, com várias opções de idioma e voz, e suporte a ajustes de velocidade, volume e tom.
- tradução em tempo realSuporte ao reconhecimento e à tradução de fala em tempo real para vários idiomas.
- Download do YouTubeVocê pode baixar vídeos do YouTube e extrair áudio (mp3, wav, flac).
- separação vocalSeparação de sons vocais e de fundo usando os mecanismos MDX-Net e Demucs.
- arquivo de loteSuporte à geração de legendas, tradução e processamento de texto para fala de grandes lotes de arquivos.
- Geração de subtítulosSuporte à geração e edição de legendas em mais de 90 idiomas.
- Suporte a vários formatosTodos os formatos de vídeo e áudio suportados pelo ffmpeg são compatíveis.
Usando a Ajuda
Processo de instalação
- pacote inicialClone ou baixe a versão mais recente do código-fonte do GitHub.
git clone https://github.com/abus-aikorea/voice-pro.git
- Instalar e executar o programa::
- estar em movimento
configure.bat
Instale as dependências necessárias (por exemplo, git, ffmpeg e CUDA). - estar em movimento
start.bat
Inicie o Voice-Pro e a WebUI será executada automaticamente. - Quando executado pela primeira vez, o Voice-Pro será instalado primeiro, o que pode levar uma hora ou mais, e durante esse tempo não feche a janela de comando do Windows.
- estar em movimento
Funções de uso
- conversão de voz em texto::
- Selecione o modelo Whisper e o tipo de cálculo na guia Studio.
- Faça upload de um arquivo de áudio ou selecione uma fonte de entrada de áudio (como um microfone).
- Clique no botão "Start" (Iniciar) e aguarde a conclusão do reconhecimento de fala e da criação de legendas.
- renderização::
- Carregue o arquivo de texto ou legenda a ser traduzido na guia Traduzir.
- Selecione o idioma de destino e clique no botão "Translate" (Traduzir).
- Quando a tradução estiver concluída, você poderá fazer o download do arquivo traduzido.
- conversão de texto em fala::
- Selecione Edge-TTS ou F5-TTS na guia TTS.
- Digite o texto a ser convertido e selecione os parâmetros de voz (por exemplo, velocidade, volume, tom).
- Clique no botão "Generate Voice" (Gerar voz) e aguarde a conclusão da geração de voz.
- Download do YouTube::
- Digite o link do vídeo do YouTube na guia YouTube Downloader.
- Selecione o formato de áudio (mp3, wav, flac) e clique no botão "Download".
- Quando o download estiver concluído, você poderá encontrar o arquivo de áudio na pasta especificada.
- separação de sons::
- Faça upload de arquivos de áudio na guia Vocal Remover.
- Selecione o mecanismo MDX-Net ou Demucs e clique no botão Start (Iniciar).
- Aguarde a conclusão da separação do som e você poderá fazer o download do arquivo de áudio separado.
- arquivo de lote::
- Faça upload de vários arquivos na guia Batch (Lote).
- Selecione a operação desejada (legendagem, tradução, conversão de texto em fala).
- Clique no botão "Start" (Iniciar) e aguarde a conclusão do processamento em lote.
problemas comuns
- O navegador não está sendo executado automaticamenteFeche a janela de comando do Windows e execute novamente
start.bat
ou digite manualmente o endereço exibido em seu navegador (por exemplo, http://127.0.0.1:7892). - Erro de falta de memória da CUDAVerifique o status da memória da GPU e ajuste o nível de redução de ruído ou o tipo de cálculo.
- Aviso do Windows DefenderAdicionar o arquivo de lote como uma exceção ou desativar temporariamente o Windows Defender.