MOSS-TTSD - модель генерации двуязычной диалоговой речи с открытым исходным кодом Лаборатории Цинхуа

Что такое MOSS-TTSD

MOSS-TTSD - это модель разговорного диалога с открытым исходным кодом, разработанная в Лаборатории речи и языка Университета Цинхуа. MOSS-TTSD может преобразовывать текстовые сценарии диалогов в естественную, беглую и выразительную разговорную речь и поддерживает двуязычную генерацию на английском и китайском языках. Модель основана на передовом семантико-фонетическом нейросетевом аудиокодеке и крупномасштабной предварительно обученной языковой модели, в сочетании с более чем 1 миллионом часов данных речи одного человека и 400 000 часов данных разговорной речи для обучения. MOSS-TTSD поддерживает клонирование речи с нулевой выборкой, что позволяет генерировать точные голоса собеседников на основе сценариев диалога и достигать клонирования тембра без дополнительных выборок. MOSS-TTSD подходит для AI подкастов и может быть использован в различных приложениях. MOSS-TTSD подходит для AI-подкастов, дубляжа фильмов и телепередач, длинных интервью, новостных репортажей, прямых трансляций электронной коммерции и т. д. Он имеет полностью открытый исходный код и поддерживает свободное коммерческое использование.

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

Ключевые особенности MOSS-TTSD

  • Естественное и плавное озвучивание диалогов: Способность переводить текстовый диалог в естественную, выразительную речь, точно передавая ритм и интонацию диалога.
  • Клонирование тонального сигнала с нулевой выборкой для нескольких динамиков: Генерируйте тональные сигналы различных собеседников на основе сценариев диалога без дополнительных голосовых образцов для плавного переключения между диалогами.
  • Двуязычная поддержка: Поддержка высококачественной генерации речи на китайском и английском языках для удовлетворения потребностей многоязычных сценариев.
  • Генерация длинной речиКодек с низким битрейтом позволяет генерировать до 960 секунд речи за один проход, избегая неестественных переходов между фрагментами речи.
  • Открытый исходный код и готовность бизнесаВесовые коэффициенты модели, код выводов и интерфейсы API полностью открыты и поддерживают свободное коммерческое использование, что способствует быстрому развертыванию приложений для разработчиков и предприятий.

Адрес официального сайта MOSS-TTSD

  • Веб-сайт проекта:: https://www.open-moss.com/en/moss-ttsd/
  • Репозиторий Github:: https://github.com/OpenMOSS/MOSS-TTSD
  • Библиотека моделей HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

Как использовать MOSS-TTSD

  • Подготовка к защите окружающей среды::
    • Установка драйверов NVIDIA: Убедитесь, что установлены последние версии драйверов NVIDIA и CUDA Toolkit.
    • Установка Python и зависимостей::
pip install torch torchvision torchaudio transformers soundfile
  • Получение модели: Скачать модели с сайта Hugging Face::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • Загружайте модели и генерируйте речь
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
  • Проверка операционной среды: Проверьте поддержку GPU::
import torch
print(torch.cuda.is_available())

Основные преимущества MOSS-TTSD

  • Естественная и плавная генерация речи: Способность преобразовывать текстовый диалог в естественную, беглую, выразительную речь, точно передающую рифму и интонацию диалога.
  • Клонирование тонального сигнала многоканального громкоговорителя: Поддерживает клонирование тональности с нулевым сэмплом, что позволяет генерировать тональность разных собеседников без использования дополнительных голосовых сэмплов, обеспечивая естественное переключение между диалогами.
  • Двуязычная поддержка: Поддержка высококачественной генерации речи на китайском и английском языках для удовлетворения потребностей многоязычных сценариев.
  • Эффективная обработка данных и предварительное обучение: В сочетании с крупномасштабными речевыми данными для обучения, на основе оптимизированной системы обучения, которая обеспечивает высокое качество и эффективность генерируемой речи.
  • Открытый исходный код и готовность бизнеса: Модель полностью открыта и поддерживает свободное коммерческое использование, что способствует быстрому развертыванию и применению разработчиками.
  • Широкий спектр сценариев примененияОн подходит для подкастинга AI, дубляжа фильмов и телепередач, длинных интервью, новостных репортажей и прямых трансляций электронной коммерции.
  • технологическая инновация: Повышение производительности и эффективности генерации речи на основе инновационного кодера с дискретизацией речи, XY-Tokenizer, и кодека с низкой скоростью передачи данных.

Люди, для которых предназначен MOSS-TTSD

  • создатель контента: Используйте его для создания AI-подкастов, видеозаписей, новостных выпусков и многого другого, быстро генерируя естественную и плавную разговорную речь.
  • Команда по производству фильмов и телепередач: Дублирование диалогов для кино- и телефильмов, поддержка клонирования тонов нескольких дикторов для повышения эффективности производства.
  • новостные СМИ: Создание естественных разговорных закадровых текстов для повышения привлекательности и читаемости новостей.
  • специалист по электронной коммерции: Привлеките свою аудиторию и повысьте интерактивность с помощью цифровых человеческих диалогов в прямых трансляциях электронной коммерции.
  • Разработчик технологий: Вторичное развитие с использованием моделей с открытым исходным кодом, интеграция в различные речевые приложения и расширение функциональности.
© заявление об авторских правах

Похожие статьи

Class Companion: K12教师设计的课后作业管理系统,为学生提供AI辅导和作业批改

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...