Introdução geral
O Fish Speech é uma ferramenta de síntese de texto para fala (TTS) de código aberto desenvolvida pela Fish Audio. A ferramenta se baseia em tecnologias de IA de ponta, como VQ-GAN, Llama e VITS, e é capaz de converter texto em fala realista. O Fish Speech não só é compatível com vários idiomas, mas também oferece uma solução eficiente de síntese de fala para uma variedade de cenários de aplicativos, como voice-over, assistentes de voz e leitura acessível.
O projeto de clonagem de voz FishSpeech 1.5 foi atualizado - semelhante ao que compartilhei anteriormente, como o F5-TTS, MáscaraGCT O FishSpeech é um projeto de clonagem de voz que requer apenas de 5 a 10 segundos de amostras de voz para reproduzir com perfeição as características da voz de uma pessoa e oferece suporte a trocas de vários idiomas, como chinês, inglês, japonês e coreano.
Foi fornecido um pacote de integração de uma peça otimizada Fish Speech v1.5.0 de código aberto.
Lista de funções
- Suporte a vários idiomasConversão de texto para fala: suporta conversão de texto para fala em vários idiomas.
- Síntese eficienteSíntese de fala eficiente com base em técnicas como VQ-GAN, Llama e VITS.
- projeto de código abertoCódigo-fonte: O código é aberto e os usuários podem baixá-lo e usá-lo livremente.
- Demonstração on-lineOferece a função de demonstração on-line para que os usuários possam experimentar diretamente o efeito da síntese de fala.
- Download do modeloSuporte para download de modelos pré-treinados da plataforma Hugging Face.
Usando a Ajuda
Processo de instalação
Requisitos do sistema
- Memória da GPU4 GB (para raciocínio), 8 GB (para ajuste fino)
- sistemas: Linux, Windows
Configuração do Windows
usuário profissional
- Considere o uso do WSL2 ou do Docker para executar a base de código.
usuário não profissional
- Descompacte o zip do projeto.
- strike (no teclado) install_env.bat ambiente de instalação.
- Você pode decidir se quer ou não usar o download espelho editando a entrada USE_MIRROR em install_env.bat.
USE_MIRROR=false
Use o site original para baixar a versão estável mais recente do ambiente torch.USE_MIRROR=true
Use o site espelho para baixar o ambiente mais recente do torch (padrão).
- Você pode decidir se deseja ativar downloads de ambiente compiláveis editando a entrada INSTALL_TYPE do install_env.bat.
INSTALL_TYPE=preview
Faça o download da versão de desenvolvimento do ambiente de compilação.INSTALL_TYPE=estável
Faça o download da versão estável sem o ambiente de compilação.
- Você pode decidir se quer ou não usar o download espelho editando a entrada USE_MIRROR em install_env.bat.
- Se a etapa 2 INSTALL_TYPE=previewSe você não quiser usar essa etapa, execute-a (ela pode ser ignorada; essa etapa ativa o ambiente do modelo compilado).
- Faça o download do compilador LLVM:
- LLVM-17.0.6(Download do site original)
- LLVM-17.0.6(download do site espelho)
- Depois de fazer o download do LLVM-17.0.6-win64.exe, clique duas vezes nele para instalá-lo, escolha um local de instalação adequado e marque Adicionar caminho ao usuário atual para adicionar variáveis de ambiente.
- Faça o download do compilador LLVM:
- Faça o download e instale o pacote Microsoft Visual C++ Redistributable Packagepara resolver o possível problema de perda de .dll.
- Faça o download e instale o Visual Studio Community Editionpara que a ferramenta de compilação MSVC++ resolva as dependências do arquivo de cabeçalho LLVM.
- Download do Visual Studio
- Depois de instalar o instalador do Visual Studio, faça o download do Visual Studio Community 2022.
- Clique no botão Modify, localize o item Desktop Development using C++ e marque Download.
- Faça o download e instale Kit de ferramentas CUDA 12.
- clique duas vezes start.bat Abra a interface de administração da WebUI do Training Reasoning. Se necessário, modifique API_FLAGS conforme indicado abaixo.
- Deseja iniciar a interface WebUI do Reasoning? Edite API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
--infer # --api # --listen ...
- Deseja iniciar o servidor de API? Edite o arquivo API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
# --infer --api --listen ...
- Deseja iniciar a interface WebUI do Reasoning? Edite API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
- clique duas vezes run_cmd.bat Digite o ambiente de linha de comando conda/python para este projeto.
Configuração do Linux
- Criação de um ambiente virtual python 3.10Você também pode usar o virtualenv:
conda create -n fish-speech python=3.10 conda activate fish-speech
- Instalação do pytorch::
pip3 install torch torchvision torchaudio
- Instalar o fish-speech::
pip3 install -e . [stable]
- (Usuários do Ubuntu / Debian) Instale o sox::
apt install libsox-dev
Configuração do Docker
- Instalação do kit de ferramentas para contêineres da NVIDIA::
- Para usuários do Ubuntu:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit- keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo camiseta /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker
- Para usuários que usam outras distribuições Linux, consulte: Guia de instalação do NVIDIA Container Toolkit.
- Para usuários do Ubuntu:
- Extraia e execute a imagem do fish-speech::
docker pull lengyue233/fish-speech docker run -it \ --name fish-speech \ --gpus all \ -p 7860:7860 \ lengyue233/fish-speech \ zsh
- Se você precisar usar uma porta diferente, altere o
-p
parâmetrosSua porta:7860
.
- Se você precisar usar uma porta diferente, altere o
- Download de dependências de modelos::
- Certifique-se de estar em um terminal dentro do contêiner do docker antes de fazer o download dos modelos vqgan e llama necessários do nosso repositório huggingface:
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- Para usuários da China continental, o download pode ser feito por meio do site espelho:
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- Certifique-se de estar em um terminal dentro do contêiner do docker antes de fazer o download dos modelos vqgan e llama necessários do nosso repositório huggingface:
- Para configurar as variáveis de ambiente, acesse a WebUI::
- Em um terminal dentro do contêiner do docker, digite:
exportação GRADIO_SERVER_NAME="0.0.0.0"
- Em seguida, no terminal dentro do contêiner do docker, digite:
ferramentas python/webui.py
- Se for WSL ou MacOS, acesse o
http://localhost:7860
A interface WebUI é aberta. - Se for implantado em um servidor, substitua o
localhost
é o IP do seu servidor.
- Em um terminal dentro do contêiner do docker, digite: