MockingBird: clonagem rápida de voz e treinamento de modelos, conversão de texto em fala com base em xtts v2

Introdução geral

O MockingBird é um projeto de código aberto que visa à clonagem rápida de voz e à conversão de texto em fala por meio da tecnologia de IA. Os usuários só precisam fornecer 5 segundos de amostras de voz para gerar qualquer conteúdo de voz. O projeto suporta uma variedade de conjuntos de dados chineses e funciona bem em sistemas Windows e Linux. O MockingBird usa a estrutura PyTorch e fornece ferramentas fáceis de usar e instruções detalhadas de instalação para desenvolvedores e pesquisadores.

MockingBird: clonagem rápida de voz, conversão de texto em fala com base na implementação do xtts_v2-1

MockingBird: clonagem rápida de voz e treinamento de modelos, conversão de texto em fala com base no xtts v2-1

Lista de funções

Clonagem de fala: gere conteúdo de fala arbitrário a partir de amostras de voz de 5 segundos
Texto para fala: insira o texto para gerar a fala correspondente
Suporte a vários idiomas: suporta mandarim e vários conjuntos de dados chineses
Operação em várias plataformas: compatível com os sistemas Windows e Linux
Processamento em tempo real: fornece geração de fala em tempo real
Código-fonte aberto: o código é aberto para facilitar o desenvolvimento secundário e a pesquisa

Usando a Ajuda

Processo de instalação

Preparação ambiental::
- Instale o Python 3.7 ou posterior.
- Instale o PyTorch (recomenda-se a versão 1.9.0).
- Instale o ffmpeg.
Download do projeto::
- Abra o endereço do projeto MockingBird, clique no botão verde "Code" (Código) e selecione "Download ZIP" (Baixar ZIP) para baixar o arquivo do projeto.
- Ou use o comando git para fazer o download:git clone https://github.com/babysor/MockingBird.git
Instalação de dependências::
- Vá para o diretório do projeto e execute pip install -r requirements.txt Instale os pacotes Python necessários.
- Se necessário, você pode usar o conda para criar um ambiente virtual e instalar dependências:conda env create -n env_name -f env.ymle, em seguida, ative o ambiente:conda activate env_name.
modelo de transcrição fonética

Para reduzir o tamanho do arquivo principal, ele não contém o modelo de som para som. Se você precisar fazer o download separadamente, clique para ir paraModelo de download (3G)

Processo de uso

Caixa de ferramentas de tempo de execução::
- estar em movimento demo_toolbox.pypara abrir a tela Toolbox.
- Selecione o arquivo de amostra de fala na caixa de ferramentas, insira o conteúdo do texto e clique no botão Generate (Gerar) para gerar o arquivo de fala correspondente.
Modelos de treinamento::
- Se precisar treinar seu próprio modelo, você pode seguir o tutorial de treinamento no projeto.
- Faça o download e prepare o conjunto de dados de treinamento, execute train.py Iniciar o treinamento.
- Arquivo de ajuda em chinês para modelos de treinamento
chamada remota::
- O MockingBird fornece uma função de servidor da Web que permite que você use os resultados de fala gerados por invocação remota.
- Configure e inicie o servidor da Web a ser chamado usando a interface da API.

problemas comuns

falha na instalaçãoVerifique se a sua versão do Python atende aos requisitos e preste atenção à compatibilidade de versões ao instalar o PyTorch.
qualidade de vozA qualidade das amostras de fala e a riqueza do conjunto de dados de treinamento afetam a eficácia da fala gerada, e é recomendável usar amostras de fala de alta qualidade e conjuntos de dados diversos para treinamento.

Download pré-empacotado para Windows (3,7 G/com modelagem de texto para som)

Chefe do Círculo de Compartilhamento de IA

Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo

Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

MockingBird: clonagem rápida de voz e treinamento de modelos, conversão de texto em fala com base no xtts v2

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

problemas comuns

Download pré-empacotado para Windows (3,7 G/com modelagem de texto para som)

Artigos relacionados

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Amphion MaskGCT: modelo de clonagem de texto para fala com amostragem zero (pacote de implantação local com um clique)

CosyVoice: projeto de código aberto de clonagem de voz de 3 segundos lançado por Ali com suporte para tags controladas emocionalmente

Coqui TTS (xTTS): um kit de ferramentas de aprendizagem profunda para geração de texto para fala com suporte multilíngue e recursos de clonagem de voz

F5-TTS: clonagem de fala sem amostras para gerar vozes clonadas suaves e emocionalmente ricas

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA