Introdução geral
O Clone Voice é uma ferramenta de clonagem de som de código aberto que fornece uma interface baseada na Web que permite aos usuários clonar vozes usando qualquer som ou gravação de voz pessoal. A ferramenta é fácil de usar e pode ser executada localmente com um aplicativo pré-compilado, mesmo sem uma GPU NVIDIA. Ela é compatível com vários idiomas, incluindo 16 idiomas, como chinês, inglês, japonês, coreano, francês, alemão e italiano. Os usuários podem gravar o som por meio do microfone ou carregar arquivos de áudio para conversão.
Lista de funções
- Text to Sound: insira texto ou importe arquivos de legendas para gerar fala com o timbre especificado.
- Sound to Sound: faça upload de arquivos de áudio ou grave sons on-line e converta-os em tons específicos.
- Suporte a vários idiomas: suporta síntese e conversão de fala em 16 idiomas.
- Fácil de usar: não é necessária uma GPU NVIDIA, faça o download da versão pré-compilada e use-a.
- Gravação on-line: grave o som por meio do microfone para conversão em tempo real.
- Download de modelos: Oferece uma variedade de opções de download de modelos para atender a diferentes necessidades.
Usando a Ajuda
Processo de instalação
- Faça o download da versão pré-compilada da janela de uso do (outros sistemas podem ser implantados com o código-fonte)
- entrevistas Página de lançamentos Faça o download da versão pré-compilada e dos arquivos de modelo mais recentes.
- Faça o download e descompacte-o no diretório especificado, por exemplo.
E:/clone-voice
.
- Executar o aplicativo::
- clique duas vezes
app.exe
A interface da Web é aberta automaticamente. - Leia atentamente os prompts na janela CMD, pois todos os erros serão exibidos aqui.
- clique duas vezes
- Configuração do modelo::
- Extraia os arquivos de modelo baixados para o diretório do software no diretório
tts
Dentro da pasta.
- Extraia os arquivos de modelo baixados para o diretório do software no diretório
Processo de uso
- texto para som::
- Selecione o botão [Text->Sound] e digite o texto na caixa de texto ou clique para importar um arquivo de legenda.
- Selecione os tons que deseja usar e clique no botão "Start Now" (Iniciar agora) para gerar o arquivo de voz.
- De som para som::
- Selecione o botão [Sound->Sound] para carregar o arquivo de áudio a ser convertido (o formato mp3/wav/flac é compatível).
- Selecione o tom que deseja clonar na caixa suspensa "Sound file to use" (Arquivo de som a ser usado) ou clique no botão "Local upload" (Carregamento local) para selecionar um arquivo de som gravado.
- Clique no botão "Start Now" (Iniciar agora) para gerar o arquivo de áudio convertido.
- Registro on-line::
- Clique no botão "Start Recording" (Iniciar gravação) para gravar de 5 a 20 segundos de som pelo microfone.
- Clique no botão "Use" (Usar) após a gravação para converter o som.
Implementação de código-fonte (para Linux, Mac, Windows)
- Configuração do ambiente::
- Instale o Python 3.9 ou superior e a ferramenta git-cmd.
- Crie um ambiente virtual e ative-o:
python -m venv venv
(matemática) gênerofonte venv/bin/activate
(Linux/Mac) ouvenv\Scripts\activate
(Windows).
- Download do código-fonte::
- Abra uma janela do CMD no diretório de destino e execute
git clone https://github.com/jianchang512/clone-voice.git
.
- Abra uma janela do CMD no diretório de destino e execute
- Instalação de dependências::
- realizar
pip install -r requirements.txt
Instale as dependências necessárias. - Se a aceleração CUDA for necessária, desinstale o torch existente e reinstale a versão compatível com CUDA:
pip uninstall -y torch
(matemática) gêneropip install torch torchaudio --index-url https://download.pytorch.org/whl/cu121
.
- realizar
- Executar o aplicativo::
- realizar
python app.py
Inicie a interface da Web.
- realizar