MOSS-TTSD - модель генерации двуязычной диалоговой речи с открытым исходным кодом Лаборатории Цинхуа

Последние ресурсы по искусственному интеллектуОбновлено 5 месяцев назад Круг обмена ИИ

34.6K 00

Что такое MOSS-TTSD

MOSS-TTSD - это модель разговорного диалога с открытым исходным кодом, разработанная в Лаборатории речи и языка Университета Цинхуа. MOSS-TTSD может преобразовывать текстовые сценарии диалогов в естественную, беглую и выразительную разговорную речь и поддерживает двуязычную генерацию на английском и китайском языках. Модель основана на передовом семантико-фонетическом нейросетевом аудиокодеке и крупномасштабной предварительно обученной языковой модели, в сочетании с более чем 1 миллионом часов данных речи одного человека и 400 000 часов данных разговорной речи для обучения. MOSS-TTSD поддерживает клонирование речи с нулевой выборкой, что позволяет генерировать точные голоса собеседников на основе сценариев диалога и достигать клонирования тембра без дополнительных выборок. MOSS-TTSD подходит для AI подкастов и может быть использован в различных приложениях. MOSS-TTSD подходит для AI-подкастов, дубляжа фильмов и телепередач, длинных интервью, новостных репортажей, прямых трансляций электронной коммерции и т. д. Он имеет полностью открытый исходный код и поддерживает свободное коммерческое использование.

Ключевые особенности MOSS-TTSD

Естественное и плавное озвучивание диалогов: Способность переводить текстовый диалог в естественную, выразительную речь, точно передавая ритм и интонацию диалога.
Клонирование тонального сигнала с нулевой выборкой для нескольких динамиков: Генерируйте тональные сигналы различных собеседников на основе сценариев диалога без дополнительных голосовых образцов для плавного переключения между диалогами.
Двуязычная поддержка: Поддержка высококачественной генерации речи на китайском и английском языках для удовлетворения потребностей многоязычных сценариев.
Генерация длинной речиКодек с низким битрейтом позволяет генерировать до 960 секунд речи за один проход, избегая неестественных переходов между фрагментами речи.
Открытый исходный код и готовность бизнесаВесовые коэффициенты модели, код выводов и интерфейсы API полностью открыты и поддерживают свободное коммерческое использование, что способствует быстрому развертыванию приложений для разработчиков и предприятий.

Адрес официального сайта MOSS-TTSD

Веб-сайт проекта:: https://www.open-moss.com/en/moss-ttsd/
Репозиторий Github:: https://github.com/OpenMOSS/MOSS-TTSD
Библиотека моделей HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

Как использовать MOSS-TTSD

Подготовка к защите окружающей среды::
- Установка драйверов NVIDIA: Убедитесь, что установлены последние версии драйверов NVIDIA и CUDA Toolkit.
- Установка Python и зависимостей::

pip install torch torchvision torchaudio transformers soundfile

Получение модели: Скачать модели с сайта Hugging Face::

git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5

Загружайте модели и генерируйте речь

from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好，这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)

Проверка операционной среды: Проверьте поддержку GPU::

import torch
print(torch.cuda.is_available())

Основные преимущества MOSS-TTSD

Естественная и плавная генерация речи: Способность преобразовывать текстовый диалог в естественную, беглую, выразительную речь, точно передающую рифму и интонацию диалога.
Клонирование тонального сигнала многоканального громкоговорителя: Поддерживает клонирование тональности с нулевым сэмплом, что позволяет генерировать тональность разных собеседников без использования дополнительных голосовых сэмплов, обеспечивая естественное переключение между диалогами.
Двуязычная поддержка: Поддержка высококачественной генерации речи на китайском и английском языках для удовлетворения потребностей многоязычных сценариев.
Эффективная обработка данных и предварительное обучение: В сочетании с крупномасштабными речевыми данными для обучения, на основе оптимизированной системы обучения, которая обеспечивает высокое качество и эффективность генерируемой речи.
Открытый исходный код и готовность бизнеса: Модель полностью открыта и поддерживает свободное коммерческое использование, что способствует быстрому развертыванию и применению разработчиками.
Широкий спектр сценариев примененияОн подходит для подкастинга AI, дубляжа фильмов и телепередач, длинных интервью, новостных репортажей и прямых трансляций электронной коммерции.
технологическая инновация: Повышение производительности и эффективности генерации речи на основе инновационного кодера с дискретизацией речи, XY-Tokenizer, и кодека с низкой скоростью передачи данных.

Люди, для которых предназначен MOSS-TTSD

создатель контента: Используйте его для создания AI-подкастов, видеозаписей, новостных выпусков и многого другого, быстро генерируя естественную и плавную разговорную речь.
Команда по производству фильмов и телепередач: Дублирование диалогов для кино- и телефильмов, поддержка клонирования тонов нескольких дикторов для повышения эффективности производства.
новостные СМИ: Создание естественных разговорных закадровых текстов для повышения привлекательности и читаемости новостей.
специалист по электронной коммерции: Привлеките свою аудиторию и повысьте интерактивность с помощью цифровых человеческих диалогов в прямых трансляциях электронной коммерции.
Разработчик технологий: Вторичное развитие с использованием моделей с открытым исходным кодом, интеграция в различные речевые приложения и расширение функциональности.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.