Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Kokoro: modelos eficientes de síntese de fala para gerar uma fala natural e suave

Introdução geral

O Kokoro 82M é um modelo de síntese de fala altamente eficiente fornecido pela Hugging Face, projetado para gerar fala de alta qualidade com menos parâmetros e menos dados. O modelo tem 82 milhões de parâmetros, é lançado sob a licença Apache 2.0 e suporta vários pacotes de voz para gerar fala em diferentes estilos e idiomas. O kokoro-82M tem um bom desempenho no domínio TTS (Text-to-Speech), especialmente nas classificações Elo, e é capaz de alcançar O Kokoro-82M tem um bom desempenho em TTS (Text-to-Speech), especialmente na classificação Elo, e pode obter síntese de fala de alta qualidade com menos recursos de computação.

Kokoro envolveu a API:API Kokoro TTS: wrapper FastAPI do Docker para conversão rápida de texto em fala (modelo Kokoro-82M)


Kokoro:高效语音合成模型,生成自然流畅的语音-1

Experiência: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

 

Lista de funções

  • síntese de falaGeração de saída de fala natural e suave.
  • Suporte a vários pacotes de vozPacotes de voz: Há uma variedade de pacotes de voz disponíveis e os usuários podem escolher entre diferentes estilos de voz.
  • Modelagem eficienteSíntese de fala de alta qualidade usando menos parâmetros e dados.
  • licença de código abertoSob a licença Apache 2.0, que permite o uso e a modificação gratuitos.
  • Suporte à comunidadeServidor Discord: Um servidor Discord está disponível para que os usuários possam discutir e dar feedback na comunidade.

 

Usando a Ajuda

Processo de instalação

  1. Instalação de dependências::
   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
  1. Crie o modelo e carregue o pacote de voz padrão::
   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
  1. Gerar discurso::
   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Instruções de uso

  1. Selecionar pacote de vozO Kokoro-82M oferece uma variedade de pacotes de voz que permitem ao usuário selecionar diferentes estilos de voz, conforme necessário. O pacote de voz padrão é afIsso pode ser feito no voices Localize outros pacotes de voz na pasta.
  2. Gerar discurso: Uso generate A função insere o texto e gera a fala. A fala gerada é de 24 kHz e pode ser reproduzida por meio da tela IPython.
  3. Parâmetros de ajusteOs usuários podem ajustar os parâmetros do modelo e os pacotes de fala conforme necessário para obter os melhores resultados de síntese de fala.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Kokoro: modelos eficientes de síntese de fala para gerar uma fala natural e suave
pt_BRPortuguês do Brasil