Kokoro: эффективные модели синтеза речи для создания естественной и плавной речи
Общее введение
Kokoro 82M - это высокоэффективная модель синтеза речи от Hugging Face, предназначенная для создания высококачественной речи с меньшим количеством параметров и данных. Модель имеет 82 миллиона параметров, выпускается под лицензией Apache 2.0 и поддерживает несколько голосовых пакетов для генерации речи в разных стилях и на разных языках. kokoro-82M демонстрирует хорошие результаты в области TTS (Text-to-Speech), особенно в рейтинге Elo, и может достигать Kokoro-82M демонстрирует хорошие результаты в области TTS (Text-to-Speech), особенно в рейтинге Elo, и позволяет добиться высокого качества синтеза речи при меньших вычислительных ресурсах.
Кокоро обернул API:Kokoro TTS API: докеризованная обертка FastAPI для быстрого преобразования текста в речь (модель Kokoro-82M).

Опыт работы: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Список функций
- синтез речи: Генерируйте естественную и плавную речь.
- Поддержка нескольких голосовых пакетов: Доступны различные голосовые пакеты, и пользователи могут выбирать различные стили голоса.
- Эффективное моделирование: Высококачественный синтез речи с использованием меньшего количества параметров и данных.
- лицензия с открытым исходным кодом: Под лицензией Apache 2.0, которая разрешает свободное использование и модификацию.
- Поддержка общества: Доступен сервер Discord, где пользователи могут обсуждать и оставлять отзывы в сообществе.
Использование помощи
Процесс установки
- Установка зависимостей::
git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
- Постройте модель и загрузите стандартный голосовой пакет::
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af' # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
- Создайте речь::
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
Инструкция по применению
- Выберите голосовой пакет: Kokoro-82M предлагает множество голосовых пакетов, которые позволяют пользователю выбирать различные стили голоса по мере необходимости. По умолчанию используется следующий голосовой пакет
af
Ниже приведен пример типа данных, которые можно найти вvoices
Найдите в папке другие голосовые пакеты. - Создайте речь: Использование
generate
Функция вводит текст и генерирует речь. Сгенерированная речь имеет частоту 24 кГц и может быть воспроизведена через дисплей IPython. - Параметры настройки: Пользователи могут настраивать параметры модели и речевые пакеты по мере необходимости, чтобы получить наилучшие результаты синтеза речи.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...