Introdução geral
O Kokoro 82M é um modelo de síntese de fala altamente eficiente fornecido pela Hugging Face, projetado para gerar fala de alta qualidade com menos parâmetros e menos dados. O modelo tem 82 milhões de parâmetros, é lançado sob a licença Apache 2.0 e suporta vários pacotes de voz para gerar fala em diferentes estilos e idiomas. O kokoro-82M tem um bom desempenho no domínio TTS (Text-to-Speech), especialmente nas classificações Elo, e é capaz de alcançar O Kokoro-82M tem um bom desempenho em TTS (Text-to-Speech), especialmente na classificação Elo, e pode obter síntese de fala de alta qualidade com menos recursos de computação.
Kokoro envolveu a API:API Kokoro TTS: wrapper FastAPI do Docker para conversão rápida de texto em fala (modelo Kokoro-82M)

Experiência: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Lista de funções
- síntese de falaGeração de saída de fala natural e suave.
- Suporte a vários pacotes de vozPacotes de voz: Há uma variedade de pacotes de voz disponíveis e os usuários podem escolher entre diferentes estilos de voz.
- Modelagem eficienteSíntese de fala de alta qualidade usando menos parâmetros e dados.
- licença de código abertoSob a licença Apache 2.0, que permite o uso e a modificação gratuitos.
- Suporte à comunidadeServidor Discord: Um servidor Discord está disponível para que os usuários possam discutir e dar feedback na comunidade.
Usando a Ajuda
Processo de instalação
- Instalação de dependências::
git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
- Crie o modelo e carregue o pacote de voz padrão::
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af' # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
- Gerar discurso::
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
Instruções de uso
- Selecionar pacote de vozO Kokoro-82M oferece uma variedade de pacotes de voz que permitem ao usuário selecionar diferentes estilos de voz, conforme necessário. O pacote de voz padrão é
af
Isso pode ser feito novoices
Localize outros pacotes de voz na pasta. - Gerar discurso: Uso
generate
A função insere o texto e gera a fala. A fala gerada é de 24 kHz e pode ser reproduzida por meio da tela IPython. - Parâmetros de ajusteOs usuários podem ajustar os parâmetros do modelo e os pacotes de fala conforme necessário para obter os melhores resultados de síntese de fala.