MOSS-TTSD - модель генерации двуязычной диалоговой речи с открытым исходным кодом Лаборатории Цинхуа
Что такое MOSS-TTSD
MOSS-TTSD - это модель разговорного диалога с открытым исходным кодом, разработанная в Лаборатории речи и языка Университета Цинхуа. MOSS-TTSD может преобразовывать текстовые сценарии диалогов в естественную, беглую и выразительную разговорную речь и поддерживает двуязычную генерацию на английском и китайском языках. Модель основана на передовом семантико-фонетическом нейросетевом аудиокодеке и крупномасштабной предварительно обученной языковой модели, в сочетании с более чем 1 миллионом часов данных речи одного человека и 400 000 часов данных разговорной речи для обучения. MOSS-TTSD поддерживает клонирование речи с нулевой выборкой, что позволяет генерировать точные голоса собеседников на основе сценариев диалога и достигать клонирования тембра без дополнительных выборок. MOSS-TTSD подходит для AI подкастов и может быть использован в различных приложениях. MOSS-TTSD подходит для AI-подкастов, дубляжа фильмов и телепередач, длинных интервью, новостных репортажей, прямых трансляций электронной коммерции и т. д. Он имеет полностью открытый исходный код и поддерживает свободное коммерческое использование.

Ключевые особенности MOSS-TTSD
- Естественное и плавное озвучивание диалогов: Способность переводить текстовый диалог в естественную, выразительную речь, точно передавая ритм и интонацию диалога.
- Клонирование тонального сигнала с нулевой выборкой для нескольких динамиков: Генерируйте тональные сигналы различных собеседников на основе сценариев диалога без дополнительных голосовых образцов для плавного переключения между диалогами.
- Двуязычная поддержка: Поддержка высококачественной генерации речи на китайском и английском языках для удовлетворения потребностей многоязычных сценариев.
- Генерация длинной речиКодек с низким битрейтом позволяет генерировать до 960 секунд речи за один проход, избегая неестественных переходов между фрагментами речи.
- Открытый исходный код и готовность бизнесаВесовые коэффициенты модели, код выводов и интерфейсы API полностью открыты и поддерживают свободное коммерческое использование, что способствует быстрому развертыванию приложений для разработчиков и предприятий.
Адрес официального сайта MOSS-TTSD
- Веб-сайт проекта:: https://www.open-moss.com/en/moss-ttsd/
- Репозиторий Github:: https://github.com/OpenMOSS/MOSS-TTSD
- Библиотека моделей HuggingFace:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/fnlp/MOSS-TTSD
Как использовать MOSS-TTSD
- Подготовка к защите окружающей среды::
- Установка драйверов NVIDIA: Убедитесь, что установлены последние версии драйверов NVIDIA и CUDA Toolkit.
- Установка Python и зависимостей::
pip install torch torchvision torchaudio transformers soundfile
- Получение модели: Скачать модели с сайта Hugging Face::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- Загружайте модели и генерируйте речь
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf
# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")
# 生成语音
audio = model.generate(**inputs)
# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
- Проверка операционной среды: Проверьте поддержку GPU::
import torch
print(torch.cuda.is_available())
Основные преимущества MOSS-TTSD
- Естественная и плавная генерация речи: Способность преобразовывать текстовый диалог в естественную, беглую, выразительную речь, точно передающую рифму и интонацию диалога.
- Клонирование тонального сигнала многоканального громкоговорителя: Поддерживает клонирование тональности с нулевым сэмплом, что позволяет генерировать тональность разных собеседников без использования дополнительных голосовых сэмплов, обеспечивая естественное переключение между диалогами.
- Двуязычная поддержка: Поддержка высококачественной генерации речи на китайском и английском языках для удовлетворения потребностей многоязычных сценариев.
- Эффективная обработка данных и предварительное обучение: В сочетании с крупномасштабными речевыми данными для обучения, на основе оптимизированной системы обучения, которая обеспечивает высокое качество и эффективность генерируемой речи.
- Открытый исходный код и готовность бизнеса: Модель полностью открыта и поддерживает свободное коммерческое использование, что способствует быстрому развертыванию и применению разработчиками.
- Широкий спектр сценариев примененияОн подходит для подкастинга AI, дубляжа фильмов и телепередач, длинных интервью, новостных репортажей и прямых трансляций электронной коммерции.
- технологическая инновация: Повышение производительности и эффективности генерации речи на основе инновационного кодера с дискретизацией речи, XY-Tokenizer, и кодека с низкой скоростью передачи данных.
Люди, для которых предназначен MOSS-TTSD
- создатель контента: Используйте его для создания AI-подкастов, видеозаписей, новостных выпусков и многого другого, быстро генерируя естественную и плавную разговорную речь.
- Команда по производству фильмов и телепередач: Дублирование диалогов для кино- и телефильмов, поддержка клонирования тонов нескольких дикторов для повышения эффективности производства.
- новостные СМИ: Создание естественных разговорных закадровых текстов для повышения привлекательности и читаемости новостей.
- специалист по электронной коммерции: Привлеките свою аудиторию и повысьте интерактивность с помощью цифровых человеческих диалогов в прямых трансляциях электронной коммерции.
- Разработчик технологий: Вторичное развитие с использованием моделей с открытым исходным кодом, интеграция в различные речевые приложения и расширение функциональности.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...