Kokoro: эффективные модели синтеза речи для создания естественной и плавной речи

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

68.6K 00

Общее введение

Kokoro 82M - это высокоэффективная модель синтеза речи от Hugging Face, предназначенная для создания высококачественной речи с меньшим количеством параметров и данных. Модель имеет 82 миллиона параметров, выпускается под лицензией Apache 2.0 и поддерживает несколько голосовых пакетов для генерации речи в разных стилях и на разных языках. kokoro-82M демонстрирует хорошие результаты в области TTS (Text-to-Speech), особенно в рейтинге Elo, и может достигать Kokoro-82M демонстрирует хорошие результаты в области TTS (Text-to-Speech), особенно в рейтинге Elo, и позволяет добиться высокого качества синтеза речи при меньших вычислительных ресурсах.

Кокоро обернул API:Kokoro TTS API: докеризованная обертка FastAPI для быстрого преобразования текста в речь (модель Kokoro-82M).

Опыт работы: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Список функций

синтез речи: Генерируйте естественную и плавную речь.
Поддержка нескольких голосовых пакетов: Доступны различные голосовые пакеты, и пользователи могут выбирать различные стили голоса.
Эффективное моделирование: Высококачественный синтез речи с использованием меньшего количества параметров и данных.
лицензия с открытым исходным кодом: Под лицензией Apache 2.0, которая разрешает свободное использование и модификацию.
Поддержка общества: Доступен сервер Discord, где пользователи могут обсуждать и оставлять отзывы в сообществе.

Использование помощи

Процесс установки

Установка зависимостей::

   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch

Постройте модель и загрузите стандартный голосовой пакет::

   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

Создайте речь::

   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Инструкция по применению

Выберите голосовой пакет: Kokoro-82M предлагает множество голосовых пакетов, которые позволяют пользователю выбирать различные стили голоса по мере необходимости. По умолчанию используется следующий голосовой пакет afНиже приведен пример типа данных, которые можно найти в voices Найдите в папке другие голосовые пакеты.
Создайте речь: Использование generate Функция вводит текст и генерирует речь. Сгенерированная речь имеет частоту 24 кГц и может быть воспроизведена через дисплей IPython.
Параметры настройки: Пользователи могут настраивать параметры модели и речевые пакеты по мере необходимости, чтобы получить наилучшие результаты синтеза речи.