Kokoro: modelos eficientes de síntese de fala para gerar uma fala natural e suave

Recursos mais recentes de IAAtualizado há 8 meses Círculo de compartilhamento de IA

15.6K 00

Introdução geral

O Kokoro 82M é um modelo de síntese de fala altamente eficiente fornecido pela Hugging Face, projetado para gerar fala de alta qualidade com menos parâmetros e menos dados. O modelo tem 82 milhões de parâmetros, é lançado sob a licença Apache 2.0 e suporta vários pacotes de voz para gerar fala em diferentes estilos e idiomas. O kokoro-82M tem um bom desempenho no domínio TTS (Text-to-Speech), especialmente nas classificações Elo, e é capaz de alcançar O Kokoro-82M tem um bom desempenho em TTS (Text-to-Speech), especialmente na classificação Elo, e pode obter síntese de fala de alta qualidade com menos recursos de computação.

Kokoro envolveu a API:API Kokoro TTS: wrapper FastAPI do Docker para conversão rápida de texto em fala (modelo Kokoro-82M)

Experiência: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Lista de funções

síntese de falaGeração de saída de fala natural e suave.
Suporte a vários pacotes de vozPacotes de voz: Há uma variedade de pacotes de voz disponíveis e os usuários podem escolher entre diferentes estilos de voz.
Modelagem eficienteSíntese de fala de alta qualidade usando menos parâmetros e dados.
licença de código abertoSob a licença Apache 2.0, que permite o uso e a modificação gratuitos.
Suporte à comunidadeServidor Discord: Um servidor Discord está disponível para que os usuários possam discutir e dar feedback na comunidade.

Usando a Ajuda

Processo de instalação

Instalação de dependências::

   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch

Crie o modelo e carregue o pacote de voz padrão::

   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

Gerar discurso::

   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Instruções de uso

Selecionar pacote de vozO Kokoro-82M oferece uma variedade de pacotes de voz que permitem ao usuário selecionar diferentes estilos de voz, conforme necessário. O pacote de voz padrão é afIsso pode ser feito no voices Localize outros pacotes de voz na pasta.
Gerar discurso: Uso generate A função insere o texto e gera a fala. A fala gerada é de 24 kHz e pode ser reproduzida por meio da tela IPython.
Parâmetros de ajusteOs usuários podem ajustar os parâmetros do modelo e os pacotes de fala conforme necessário para obter os melhores resultados de síntese de fala.

Recursos mais recentes de IA # Projeto de código aberto AI Java # Conversão de texto em fala com IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Notion AI: O assistente de escrita com inteligência artificial que torna seu Notion mais inteligente | Notion AI Full Features

Recursos mais recentes de IA Notas de IA do #

10 meses atrás

016.2K

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

Recursos mais recentes de IA

6 meses atrás

011.8K

Deep Finder: projeto de código aberto para pesquisa de inferência profunda usando conhecimento local

Recursos mais recentes de IA # Projeto de código aberto AI Java

7 meses atrás

013.2K

Wanxing Zhi Acting: apresentação de vídeo gerada por IA, explicação de documento PPT on-line

Recursos mais recentes de IA # Apresentação/PPT gerada por IA

1 ano atrás

012.4K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Kokoro: modelos eficientes de síntese de fala para gerar uma fala natural e suave

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Instruções de uso

WrenAI: assistente de IA de análise de dados de conversação com acesso direto a respostas, consultas SQL e relatórios de análise

Auto-Coder.Chat: assistente de programação assistida por IA baseado em linha de comando de terminal com plug-in VSCode

Artigos relacionados

Notion AI: O assistente de escrita com inteligência artificial que torna seu Notion mais inteligente | Notion AI Full Features

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

Deep Finder: projeto de código aberto para pesquisa de inferência profunda usando conhecimento local

Wanxing Zhi Acting: apresentação de vídeo gerada por IA, explicação de documento PPT on-line

Sem comentários

Últimas coleções

Artigos mais recentes

Kokoro: modelos eficientes de síntese de fala para gerar uma fala natural e suave

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Instruções de uso

WrenAI: assistente de IA de análise de dados de conversação com acesso direto a respostas, consultas SQL e relatórios de análise

Auto-Coder.Chat: assistente de programação assistida por IA baseado em linha de comando de terminal com plug-in VSCode

Artigos relacionados

Notion AI: O assistente de escrita com inteligência artificial que torna seu Notion mais inteligente | Notion AI Full Features

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

Deep Finder: projeto de código aberto para pesquisa de inferência profunda usando conhecimento local

Wanxing Zhi Acting: apresentação de vídeo gerada por IA, explicação de documento PPT on-line

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes