Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Clonagem de voz CSM: clonagem rápida de voz com o CSM-1B

Introdução geral

CSM O Voice Cloning é um projeto de código aberto desenvolvido por Isaiah Bjork e hospedado no GitHub. Ele é baseado no modelo Sesame CSM-1B, que permite aos usuários clonar sua própria voz e gerar sua própria voz personalizada simplesmente fornecendo uma amostra de áudio. A ferramenta é compatível com execuções de GPU locais e execuções de nuvem Modal, o que a torna adequada para criadores de conteúdo, desenvolvedores ou qualquer pessoa interessada em tecnologia de voz. Embora os resultados da clonagem não sejam os mais perfeitos, a voz gerada mantém algumas das características da voz alvo e o efeito é reconhecível. O projeto requer alguma base técnica, como a instalação do Python e a configuração do ambiente, mas um guia detalhado está oficialmente disponível. O projeto é totalmente gratuito e a comunidade é bem-vinda para contribuir com melhorias no código.

Clonagem de voz CSM: clonagem rápida de voz com o CSM-1B-1


 

Lista de funções

  • Clonagem de fala: carregue amostras de áudio para gerar uma fala que soe semelhante à amostra.
  • Text-to-speech: insira texto e gere arquivos de áudio com vozes clonadas.
  • Execução local: use sua GPU pessoal para processar tarefas de geração de fala.
  • Executa na nuvem: acelerado por GPUs na nuvem por meio da plataforma Modal.
  • Suporte de código aberto: o código é público e pode ser modificado ou otimizado pelo usuário.
  • Compatível com formatos de áudio comuns: aceita arquivos MP3 ou WAV como amostras.
  • Parameter Adjustment (Ajuste de parâmetros): Permite que o usuário ajuste as configurações do modelo para acomodar diferentes durações de áudio.

 

Usando a Ajuda

Processo de instalação

Para usar o CSM Voice Cloning, os usuários precisam primeiro configurar o ambiente de tempo de execução. Veja a seguir as etapas detalhadas:

Executar a instalação localmente

  1. Verifique os requisitos de hardware e software
    • Requer Python 3.10 ou posterior.
    • Placas gráficas compatíveis com NVIDIA CUDA e memória de vídeo suficiente são necessárias para a operação local.
    • Certifique-se de ter uma conexão com a Internet para fazer o download dos modelos e das dependências.
  2. Repositório de código clone
    • Abra um terminal (CMD ou PowerShell para Windows, Bash para Linux/Mac).
    • Digite o comando:
      git clone https://github.com/isaiahbjork/csm-voice-cloning.git
      cd csm-voice-cloning
      
  3. Instalação de dependências
    • É executado no terminal:
      pip install -r requirements.txt
      
    • Isso instalará as bibliotecas necessárias, como PyTorch, Hugging Face, etc.

Instalação do Cloud Run (Modal)

  1. Instalação do Modal
    • É executado no terminal:
      pip install modal
      
  2. Configuração da autenticação modal
    • Digite o comando:
      modal token novo
      
    • Siga as instruções para fazer login na sua conta do Modal ou criar uma nova conta.

Configuração da conta Hugging Face

  1. Registre-se e obtenha um token
    • Visite o site do Hugging Face para se registrar ou fazer login.
    • existir Página do modelo Sesame CSM-1B Clique em "Access repository" (Acessar repositório) e aceite os termos.
    • Gerar tokens de API: clique no seu avatar no canto superior direito -> Settings -> Tokens -> Novo token.
  2. Token de configuração
    • Método 1: Digite no terminal:
      export HF_TOKEN="Seu token"
      
    • Método 2: Modificação voice_clone.py encontre o arquivo os.environ["HF_TOKEN"], preencha o token.

Preparação de amostras de áudio

  1. Gravar áudio
    • Grave um clipe de áudio nítido de 2 a 3 minutos, de preferência sem ruído de fundo.
    • Salvar em formato MP3 ou WAV, por exemplo. sample.mp3.
  2. Transcrição de texto
    • despesa ou gasto Sussurro ou outra ferramenta para transcrever o conteúdo do áudio, anotando o texto exato (por exemplo, "Hello, this is my test audio").

Funções principais

clone de falante nativo (computação)

  1. Editar parâmetros
    • show (um ingresso) voice_clone.py modifique o seguinte:
      • context_audio_path = "sample.mp3"(caminho do áudio).
      • context_text = "Olá, este é meu áudio de teste"(texto transcrito).
      • text = "It's a beautiful day today" (Está um lindo dia hoje)(texto a ser gerado).
      • output_filename = "output.wav"(nome do arquivo de saída).
  2. programa de corrida
    • Digite-o no terminal:
      python voice_clone.py
      
    • O áudio gerado é salvo na pasta do projeto.

Clonagem de voz baseada em nuvem (Modal)

  1. Editar parâmetros
    • show (um ingresso) modal_voice_cloning.py definindo os mesmos parâmetros que o local:
      • context_audio_path = "sample.mp3".
      • context_text = "Olá, este é meu áudio de teste".
      • text = "It's a beautiful day today" (Está um lindo dia hoje).
      • output_filename = "output.wav".
  2. programa de corrida
    • Digite-o no terminal:
      modal run modal_voice_cloning.py
      
    • O Modal usará a GPU da nuvem para processar a tarefa e fazer o download do arquivo de saída quando estiver concluído.

Ajuste do comprimento da sequência do modelo

  • Se a amostra de áudio for longa (mais de 2 a 3 minutos), poderão ser encontrados erros de dimensão do tensor.
  • Solução:
    1. show (um ingresso) models.py Documentação.
    2. localizar llama3_2_1B() modificando a função max_seq_len Parâmetros:
      def llama3_2_1B().
      return llama3_2.llama3_2(max_seq_len=4096, ...)
      
    3. seguro llama3_2_100M() for o mesmo, salve-o e execute-o novamente.

Operação da função em destaque

Aceleração da nuvem (Modal)

  • O Modal oferece GPUs na nuvem para quem não tem dispositivos locais potentes.
  • Simples de usar, basta instalar o Modal e executar os scripts apropriados para obter um processamento mais rápido do que o local.

Processamento de áudio longo

  • A configuração padrão é para amostras de até 2 minutos e 50 segundos.
  • O áudio mais longo precisa ser ajustado max_seq_len(conforme descrito acima), ou prenda a amostra no comprimento recomendado.

Perguntas frequentes

  • erro de dimensão do tensor
    crescente max_seq_len ou encurtar as amostras de áudio.
  • CUDA sem memória
    Use amostras mais curtas ou mude para uma execução de nuvem Modal.
  • Falha no download do modelo
    Verifique os tokens e as redes do Hugging Face para garantir que os termos do modelo tenham sido aceitos.

 

cenário do aplicativo

  1. criação de conteúdo
    • Descrição da cena
      Os âncoras podem gerar narração de vídeo com sua própria voz. Faça upload de um áudio de autoapresentação, insira um script e gere sua voz em minutos, eliminando a necessidade de gravações repetidas.
  2. Suporte educacional
    • Descrição da cena
      O professor clona sua própria voz e insere as palestras do curso para gerar o áudio de ensino. Os alunos podem ouvir a qualquer momento, o que é adequado para o ensino à distância.
  3. desenvolvimento de jogos
    • Descrição da cena
      Os desenvolvedores dão voz aos personagens do jogo. Grave algumas amostras para gerar vários diálogos e aumentar o realismo dos personagens.

 

QA

  1. Qual é a duração da amostra de áudio?
    Recomendado de 2 a 3 minutos. Muito curto para resultados ruins, muito longo para ajustar os parâmetros.
  2. Por que a voz gerada não se parece muito comigo?
    A modelagem é limitada, retendo as características do som, mas não é perfeita. Certifique-se de que a amostra esteja nítida e tente várias vezes com textos diferentes.
  3. Qual é a diferença entre o Modal e a execução local?
    O Modal usa GPUs na nuvem e é rápido para usuários sem dispositivos potentes. A execução local é gratuita, mas requer uma boa placa de vídeo.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Clonagem de voz CSM: clonagem rápida de voz com o CSM-1B

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil