Kokoro: эффективные модели синтеза речи для создания естественной и плавной речи

Общее введение

Kokoro 82M - это высокоэффективная модель синтеза речи от Hugging Face, предназначенная для создания высококачественной речи с меньшим количеством параметров и данных. Модель имеет 82 миллиона параметров, выпускается под лицензией Apache 2.0 и поддерживает несколько голосовых пакетов для генерации речи в разных стилях и на разных языках. kokoro-82M демонстрирует хорошие результаты в области TTS (Text-to-Speech), особенно в рейтинге Elo, и может достигать Kokoro-82M демонстрирует хорошие результаты в области TTS (Text-to-Speech), особенно в рейтинге Elo, и позволяет добиться высокого качества синтеза речи при меньших вычислительных ресурсах.

Кокоро обернул API:Kokoro TTS API: докеризованная обертка FastAPI для быстрого преобразования текста в речь (модель Kokoro-82M).

Kokoro:高效语音合成模型,生成自然流畅的语音

Опыт работы: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

 

Список функций

  • синтез речи: Генерируйте естественную и плавную речь.
  • Поддержка нескольких голосовых пакетов: Доступны различные голосовые пакеты, и пользователи могут выбирать различные стили голоса.
  • Эффективное моделирование: Высококачественный синтез речи с использованием меньшего количества параметров и данных.
  • лицензия с открытым исходным кодом: Под лицензией Apache 2.0, которая разрешает свободное использование и модификацию.
  • Поддержка общества: Доступен сервер Discord, где пользователи могут обсуждать и оставлять отзывы в сообществе.

 

Использование помощи

Процесс установки

  1. Установка зависимостей::
   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
  1. Постройте модель и загрузите стандартный голосовой пакет::
   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
  1. Создайте речь::
   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Инструкция по применению

  1. Выберите голосовой пакет: Kokoro-82M предлагает множество голосовых пакетов, которые позволяют пользователю выбирать различные стили голоса по мере необходимости. По умолчанию используется следующий голосовой пакет afНиже приведен пример типа данных, которые можно найти в voices Найдите в папке другие голосовые пакеты.
  2. Создайте речь: Использование generate Функция вводит текст и генерирует речь. Сгенерированная речь имеет частоту 24 кГц и может быть воспроизведена через дисплей IPython.
  3. Параметры настройки: Пользователи могут настраивать параметры модели и речевые пакеты по мере необходимости, чтобы получить наилучшие результаты синтеза речи.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...