Introdução geral
O MockingBird é um projeto de código aberto que visa à clonagem rápida de voz e à conversão de texto em fala por meio da tecnologia de IA. Os usuários só precisam fornecer 5 segundos de amostras de voz para gerar qualquer conteúdo de voz. O projeto suporta uma variedade de conjuntos de dados chineses e funciona bem em sistemas Windows e Linux. O MockingBird usa a estrutura PyTorch e fornece ferramentas fáceis de usar e instruções detalhadas de instalação para desenvolvedores e pesquisadores.
Lista de funções
- Clonagem de fala: gere conteúdo de fala arbitrário a partir de amostras de voz de 5 segundos
- Texto para fala: insira o texto para gerar a fala correspondente
- Suporte a vários idiomas: suporta mandarim e vários conjuntos de dados chineses
- Operação em várias plataformas: compatível com os sistemas Windows e Linux
- Processamento em tempo real: fornece geração de fala em tempo real
- Código-fonte aberto: o código é aberto para facilitar o desenvolvimento secundário e a pesquisa
Usando a Ajuda
Processo de instalação
- Preparação ambiental::
- Instale o Python 3.7 ou posterior.
- Instale o PyTorch (recomenda-se a versão 1.9.0).
- Instale o ffmpeg.
- Download do projeto::
- Abra o endereço do projeto MockingBird, clique no botão verde "Code" (Código) e selecione "Download ZIP" (Baixar ZIP) para baixar o arquivo do projeto.
- Ou use o comando git para fazer o download:
git clone https://github.com/babysor/MockingBird.git
- Instalação de dependências::
- Vá para o diretório do projeto e execute
pip install -r requirements.txt
Instale os pacotes Python necessários. - Se necessário, você pode usar o conda para criar um ambiente virtual e instalar dependências:
conda env create -n env_name -f env.yml
e, em seguida, ative o ambiente:conda activate env_name
.
- Vá para o diretório do projeto e execute
- modelo de transcrição fonética
Para reduzir o tamanho do arquivo principal, ele não contém o modelo de som para som. Se você precisar fazer o download separadamente, clique para ir paraModelo de download (3G)
Processo de uso
- Caixa de ferramentas de tempo de execução::
- estar em movimento
demo_toolbox.py
para abrir a tela Toolbox. - Selecione o arquivo de amostra de fala na caixa de ferramentas, insira o conteúdo do texto e clique no botão Generate (Gerar) para gerar o arquivo de fala correspondente.
- estar em movimento
- Modelos de treinamento::
- Se precisar treinar seu próprio modelo, você pode seguir o tutorial de treinamento no projeto.
- Faça o download e prepare o conjunto de dados de treinamento, execute
train.py
Iniciar o treinamento. - Arquivo de ajuda em chinês para modelos de treinamento
- chamada remota::
- O MockingBird fornece uma função de servidor da Web que permite que você use os resultados de fala gerados por invocação remota.
- Configure e inicie o servidor da Web a ser chamado usando a interface da API.
problemas comuns
- falha na instalaçãoVerifique se a sua versão do Python atende aos requisitos e preste atenção à compatibilidade de versões ao instalar o PyTorch.
- qualidade de vozA qualidade das amostras de fala e a riqueza do conjunto de dados de treinamento afetam a eficácia da fala gerada, e é recomendável usar amostras de fala de alta qualidade e conjuntos de dados diversos para treinamento.