Aprendizagem pessoal com IA
e orientação prática

Fish Speech: clonagem rápida e altamente precisa da fala em inglês e chinês usando poucas amostras

Introdução geral

O Fish Speech é uma ferramenta de síntese de texto para fala (TTS) de código aberto desenvolvida pela Fish Audio. A ferramenta se baseia em tecnologias de IA de ponta, como VQ-GAN, Llama e VITS, e é capaz de converter texto em fala realista. O Fish Speech não só é compatível com vários idiomas, mas também oferece uma solução eficiente de síntese de fala para uma variedade de cenários de aplicativos, como voice-over, assistentes de voz e leitura acessível.

O projeto de clonagem de voz FishSpeech 1.5 foi atualizado - semelhante ao que compartilhei anteriormente, como o F5-TTS, MáscaraGCT O FishSpeech é um projeto de clonagem de voz que requer apenas de 5 a 10 segundos de amostras de voz para reproduzir com perfeição as características da voz de uma pessoa e oferece suporte a trocas de vários idiomas, como chinês, inglês, japonês e coreano.


 

Fish Speech: uma ferramenta eficiente para clonar e sintetizar a fala com menos amostras-1

Experiência on-line em https://fish.audio/zh-CN/

 

Fish Speech: uma ferramenta eficiente para clonar e sintetizar a fala com menos amostras-1

Áudio recomendado de 30 segundos

 

 

Lista de funções

  • Suporte a vários idiomasConversão de texto para fala: suporta conversão de texto para fala em vários idiomas.
  • Síntese eficienteSíntese de fala eficiente com base em técnicas como VQ-GAN, Llama e VITS.
  • projeto de código abertoCódigo-fonte: O código é aberto e os usuários podem baixá-lo e usá-lo livremente.
  • Demonstração on-lineOferece a função de demonstração on-line para que os usuários possam experimentar diretamente o efeito da síntese de fala.
  • Download do modeloSuporte para download de modelos pré-treinados da plataforma Hugging Face.

 

Usando a Ajuda

Processo de instalação

Requisitos do sistema

  • Memória da GPU4 GB (para raciocínio), 8 GB (para ajuste fino)
  • sistemas: Linux, Windows

Configuração do Windows

usuário profissional
  • Considere o uso do WSL2 ou do Docker para executar a base de código.
usuário não profissional
  1. Descompacte o zip do projeto.
  2. strike (no teclado) install_env.bat ambiente de instalação.
    • Você pode decidir se quer ou não usar o download espelho editando a entrada USE_MIRROR em install_env.bat.
      • USE_MIRROR=false Use o site original para baixar a versão estável mais recente do ambiente torch.
      • USE_MIRROR=true Use o site espelho para baixar o ambiente mais recente do torch (padrão).
    • Você pode decidir se deseja ativar downloads de ambiente compiláveis editando a entrada INSTALL_TYPE do install_env.bat.
      • INSTALL_TYPE=preview Faça o download da versão de desenvolvimento do ambiente de compilação.
      • INSTALL_TYPE=estável Faça o download da versão estável sem o ambiente de compilação.
  3. Se a etapa 2 INSTALL_TYPE=previewSe você não quiser usar essa etapa, execute-a (ela pode ser ignorada; essa etapa ativa o ambiente do modelo compilado).
    • Faça o download do compilador LLVM:
    • Depois de fazer o download do LLVM-17.0.6-win64.exe, clique duas vezes nele para instalá-lo, escolha um local de instalação adequado e marque Adicionar caminho ao usuário atual para adicionar variáveis de ambiente.
  4. Faça o download e instale o pacote Microsoft Visual C++ Redistributable Packagepara resolver o possível problema de perda de .dll.
  5. Faça o download e instale o Visual Studio Community Editionpara que a ferramenta de compilação MSVC++ resolva as dependências do arquivo de cabeçalho LLVM.
    • Download do Visual Studio
    • Depois de instalar o instalador do Visual Studio, faça o download do Visual Studio Community 2022.
    • Clique no botão Modify, localize o item Desktop Development using C++ e marque Download.
  6. Faça o download e instale Kit de ferramentas CUDA 12.
  7. clique duas vezes start.bat Abra a interface de administração da WebUI do Training Reasoning. Se necessário, modifique API_FLAGS conforme indicado abaixo.
    • Deseja iniciar a interface WebUI do Reasoning? Edite API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
      --infer
      # --api
      # --listen ...
      
    • Deseja iniciar o servidor de API? Edite o arquivo API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
      # --infer
      --api
      --listen ...
      
  8. clique duas vezes run_cmd.bat Digite o ambiente de linha de comando conda/python para este projeto.

Configuração do Linux

  1. Criação de um ambiente virtual python 3.10Você também pode usar o virtualenv:
    conda create -n fish-speech python=3.10
    conda activate fish-speech
    
  2. Instalação do pytorch::
    pip3 install torch torchvision torchaudio
    
  3. Instalar o fish-speech::
    pip3 install -e . [stable]
    
  4. (Usuários do Ubuntu / Debian) Instale o sox::
    apt install libsox-dev
    

Configuração do Docker

  1. Instalação do kit de ferramentas para contêineres da NVIDIA::
    • Para usuários do Ubuntu:
      curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit- keyring.gpg \
          && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
              sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
              sudo camiseta /etc/apt/sources.list.d/nvidia-container-toolkit.list
      sudo apt-get update
      sudo apt-get install -y nvidia-container-toolkit
      sudo systemctl restart docker
      
    • Para usuários que usam outras distribuições Linux, consulte: Guia de instalação do NVIDIA Container Toolkit.
  2. Extraia e execute a imagem do fish-speech::
    docker pull lengyue233/fish-speech
    docker run -it \
        --name fish-speech \
        --gpus all \
        -p 7860:7860 \
        lengyue233/fish-speech \
        zsh
    
    • Se você precisar usar uma porta diferente, altere o -p parâmetros Sua porta:7860.
  3. Download de dependências de modelos::
    • Certifique-se de estar em um terminal dentro do contêiner do docker antes de fazer o download dos modelos vqgan e llama necessários do nosso repositório huggingface:
      huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
    • Para usuários da China continental, o download pode ser feito por meio do site espelho:
      HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
  4. Para configurar as variáveis de ambiente, acesse a WebUI::
    • Em um terminal dentro do contêiner do docker, digite:
      exportação GRADIO_SERVER_NAME="0.0.0.0"
      
    • Em seguida, no terminal dentro do contêiner do docker, digite:
      ferramentas python/webui.py
      
    • Se for WSL ou MacOS, acesse o http://localhost:7860 A interface WebUI é aberta.
    • Se for implantado em um servidor, substitua o localhost é o IP do seu servidor.

 

Fish Audio One-Click Installer

Chefe do Círculo de Compartilhamento de IAEste conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Fish Speech: clonagem rápida e altamente precisa da fala em inglês e chinês usando poucas amostras

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil