Fish Speech: clonagem rápida e altamente precisa da fala em chinês e inglês usando menos amostras-Chief AI Sharing Circle

🚀 O DeepSeek está lento? Este site é gratuito! DeepSeek-R1 de sangue puroO sistema é suave e pode ser conectado em rede! Uso ilimitado!

Introdução geral

O Fish Speech é uma ferramenta de síntese de texto para fala (TTS) de código aberto desenvolvida pela Fish Audio. A ferramenta se baseia em tecnologias de IA de ponta, como VQ-GAN, Llama e VITS, e é capaz de converter texto em fala realista. O Fish Speech não só é compatível com vários idiomas, mas também oferece uma solução eficiente de síntese de fala para uma variedade de cenários de aplicativos, como voice-over, assistentes de voz e leitura acessível.

Projeto de clonagem de voz FishSpeech 1.5 atualizado ~ semelhante ao anterior que compartilhei, por exemplo F5-TTS e MáscaraGCT O FishSpeech é um projeto de clonagem de voz que requer apenas de 5 a 10 segundos de amostras de voz para reproduzir com perfeição as características da voz de uma pessoa e oferece suporte a trocas de vários idiomas, como chinês, inglês, japonês e coreano.

Foi fornecido um pacote de integração de uma peça otimizada Fish Speech v1.5.0 de código aberto.

Experiência on-line em https://fish.audio/zh-CN/

Áudio recomendado de 30 segundos

Lista de funções

Suporte a vários idiomasConversão de texto para fala: suporta conversão de texto para fala em vários idiomas.
Síntese eficienteSíntese de fala eficiente com base em técnicas como VQ-GAN, Llama e VITS.
projeto de código abertoCódigo-fonte: O código é aberto e os usuários podem baixá-lo e usá-lo livremente.
Demonstração on-lineOferece a função de demonstração on-line para que os usuários possam experimentar diretamente o efeito da síntese de fala.
Download do modeloSuporte para download de modelos pré-treinados da plataforma Hugging Face.

Usando a Ajuda

Processo de instalação

Requisitos do sistema

Memória da GPU4 GB (para raciocínio), 8 GB (para ajuste fino)
sistemas: Linux, Windows

Configuração do Windows

usuário profissional

Considere o uso do WSL2 ou do Docker para executar a base de código.

usuário não profissional

Descompacte o zip do projeto.
strike (no teclado) install_env.bat ambiente de instalação.
- Você pode decidir se quer ou não usar o download espelho editando a entrada USE_MIRROR em install_env.bat.
  - USE_MIRROR=false Use o site original para baixar a versão estável mais recente do ambiente torch.
  - USE_MIRROR=true Use o site espelho para baixar o ambiente mais recente do torch (padrão).
- Você pode decidir se deseja ativar downloads de ambiente compiláveis editando a entrada INSTALL_TYPE do install_env.bat.
  - INSTALL_TYPE=preview Faça o download da versão de desenvolvimento do ambiente de compilação.
  - INSTALL_TYPE=estável Faça o download da versão estável sem o ambiente de compilação.
Se a etapa 2 INSTALL_TYPE=previewSe você não quiser usar essa etapa, execute-a (ela pode ser ignorada; essa etapa ativa o ambiente do modelo compilado).
- Faça o download do compilador LLVM:
  - LLVM-17.0.6(Download do site original)
  - LLVM-17.0.6(download do site espelho)
- Depois de fazer o download do LLVM-17.0.6-win64.exe, clique duas vezes nele para instalá-lo, escolha um local de instalação adequado e marque Adicionar caminho ao usuário atual para adicionar variáveis de ambiente.
Faça o download e instale o pacote Microsoft Visual C++ Redistributable Packagepara resolver o possível problema de perda de .dll.
- MSVC++ 14.40.33810.0 downloads
Faça o download e instale o Visual Studio Community Editionpara que a ferramenta de compilação MSVC++ resolva as dependências do arquivo de cabeçalho LLVM.
- Download do Visual Studio
- Depois de instalar o instalador do Visual Studio, faça o download do Visual Studio Community 2022.
- Clique no botão Modify, localize o item Desktop Development using C++ e marque Download.
Faça o download e instale Kit de ferramentas CUDA 12.
clique duas vezes start.bat Abra a interface de administração da WebUI do Training Reasoning. Se necessário, modifique API_FLAGS conforme indicado abaixo.
- Deseja iniciar a interface WebUI do Reasoning? Edite API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
```
--infer
# --api
# --listen ...
```
- Deseja iniciar o servidor de API? Edite o arquivo API_FLAGS.txt no diretório raiz do projeto e altere as três primeiras linhas para o seguinte formato:
```
# --infer
--api
--listen ...
```
clique duas vezes run_cmd.bat Digite o ambiente de linha de comando conda/python para este projeto.

Configuração do Linux

Criação de um ambiente virtual python 3.10Você também pode usar o virtualenv:
```
conda create -n fish-speech python=3.10
conda activate fish-speech
```

Instalação do pytorch::

pip3 install torch torchvision torchaudio

Instalar o fish-speech::
```
pip3 install -e . [stable]
```
(Usuários do Ubuntu / Debian) Instale o sox::
```
apt install libsox-dev
```

Configuração do Docker

Instalação do kit de ferramentas para contêineres da NVIDIA::

Para usuários do Ubuntu:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit- keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \ \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Para usuários que usam outras distribuições Linux, consulte: Guia de instalação do NVIDIA Container Toolkit.

Extraia e execute a imagem do fish-speech::

docker pull lengyue233/fish-speech
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
lengyue233/fish-speech \
zsh

Se você precisar usar uma porta diferente, altere o -p parâmetros Sua porta:7860.

Download de dependências de modelos::
- Certifique-se de estar em um terminal dentro do contêiner do docker antes de fazer o download dos modelos vqgan e llama necessários do nosso repositório huggingface:
```
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
- Para usuários da China continental, o download pode ser feito por meio do site espelho:
```
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
Para configurar as variáveis de ambiente, acesse a WebUI::
- Em um terminal dentro do contêiner do docker, digite:
```
export GRADIO_SERVER_NAME="0.0.0.0"
```
- Em seguida, no terminal dentro do contêiner do docker, digite:
```
ferramentas python/webui.py
```
- Se for WSL ou MacOS, acesse o http://localhost:7860 A interface WebUI é aberta.
- Se for implantado em um servidor, substitua o localhost é o IP do seu servidor.

Fish Audio One-Click Installer

Chefe do Círculo de Compartilhamento de IA

Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo

Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Fish Speech: clonagem rápida e altamente precisa da fala em inglês e chinês usando poucas amostras

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Requisitos do sistema

Configuração do Windows

usuário profissional

usuário não profissional

Configuração do Linux

Configuração do Docker

Fish Audio One-Click Installer

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA