Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

53.2K 00

1. Обзор

За последние годы технология синтеза речи достигла значительного прогресса, особенно в создании естественной и плавной речи в реальном времени. Однако такие проблемы, как задержка, точность произношения и согласованность речи с диктором, по-прежнему актуальны в реальных приложениях, особенно в потоковых приложениях, требующих высокой скорости реакции. Эти технические проблемы становятся особенно актуальными при работе со сложными языковыми данными, такими как "языковые" или полифонические слова, которые не под силу обработать существующим моделям. Для решения этих проблем исследователи Alibaba представили CosyVoice 2, обновленную модель для решения технических задач синтеза речи, которая призвана эффективно решить эти проблемы.

2. Дебют CosyVoice 2: от основ к прорыву

阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型 CosyVoice 2 основан на фундаменте оригинального CosyVoice и представляет собой значительное обновление технологии синтеза речи. Эта усовершенствованная модель не только оптимизирована для работы с потоковыми приложениями, но и добилась значительного прогресса в автономных приложениях. Повысилась ее адаптивность, гибкость и точность в самых разных сценариях применения, особенно в системах преобразования текста в речь и интерактивных речевых системах.

Основные моменты CosyVoice 2:

Унифицированные потоковые и непотоковые режимыCosyVoice 2 легко адаптируется к различным сценариям работы приложений, независимо от того, генерируются ли они в режиме реального времени или обрабатываются в автономном режиме, без ущерба для производительности.
Повышенная точность произношения: В сложных языковых средах CosyVoice 2 уменьшает количество ошибок произношения 30%-50% и значительно улучшает разборчивость речи, особенно при работе с многосложными словами или скороговорками.
повышенная конгруэнтность оратораНезависимо от того, идет ли речь о синтезе "с нуля" или межъязыковом синтезе, CosyVoice 2 обеспечивает согласованность выходных данных, чтобы каждый синтез был естественным и плавным.
Более точное командное управлениеПользователи могут точно контролировать тон, стиль и акцент своего голоса с помощью команд на естественном языке и даже подстраивать голосовые характеристики под эмоциональные потребности.

3. технология и сильные стороны, лежащие в основе инновации

CosyVoice 2 смог решить ряд задач в области синтеза речи благодаря ряду инноваций в своей технологии.

Метод конечной скалярной квантизации (FSQ): FSQ заменяет традиционный метод векторной квантизации, оптимизирует использование словарей с речевыми метками, улучшает возможности семантического представления и качество синтеза. Эта технологическая инновация не только повышает выразительные возможности модели, но и эффективно снижает сложность обработки данных.
Упрощенная архитектура преобразования текста в речь: CosyVoice 2 основан на предварительно обученных больших языковых моделях (LLM), что устраняет необходимость в дополнительных кодировщиках текста и упрощает архитектуру модели для улучшения межъязыковой производительности. Такая архитектура делает CosyVoice 2 значительно более эффективным и точным при обработке нескольких языков.
Согласование причинно-следственных потоков с учетом блоков: эта инновационная технология позволяет согласовывать семантические и акустические характеристики с минимальной задержкой, что дает CosyVoice 2 превосходные возможности для генерации речи в реальном времени, особенно для голосового взаимодействия в реальном времени и приложений потоковой передачи данных.
Расширенный набор командных данных: благодаря более чем 1500 часам тренировочных данных CosyVoice 2 обеспечивает детальный контроль над различными акцентами, эмоциями и стилями голоса, делая синтез речи более гибким и выразительным. Будь то теплый тон голоса или напряженная эмоция, CosyVoice 2 способен точно уловить и передать их.

4. Эффективность CosyVoice 2: как он решает реальные проблемы

В ходе серии строгих оценочных испытаний CosyVoice 2 продемонстрировал неоспоримые преимущества, особенно в отношении низкой задержки, высокой точности и согласованности голоса.

Низкая задержка и высокая эффективностьВремя отклика при генерации речи составляет всего 150 миллисекунд, что позволяет использовать CosyVoice 2 в голосовых приложениях реального времени, таких как голосовые чаты и потоковое взаимодействие.
Повышение точности произношенияCosyVoice 2 значительно улучшает работу со сложными языковыми структурами (например, полислогами, языковыми оборотами и т. д.), значительно повышая точность произношения и уменьшая количество ошибок при синтезе повседневной речи.
Постоянная производительность динамиковCosyVoice 2 способен поддерживать высокую степень согласованности при выполнении различных задач синтеза, будь то межъязыковой синтез или синтез с нулевым результатом, при этом естественность и стабильность речи гарантированы.
многоязычиеCosyVoice 2 также демонстрирует хорошие результаты в бенчмарках для таких языков, как японский и корейский, и, несмотря на проблемы с некоторыми пересекающимися наборами символов, демонстрирует возможности межъязыкового синтеза.
Устойчивость в сложных сценарияхCosyVoice 2 продемонстрировал более высокую четкость и точность, чем предыдущие модели, в некоторых сложных речевых сценариях (например, при произнесении скороговорок), превзойдя предыдущие технические ограничения.

5. Заключение

Выпуск CosyVoice 2 - важное достижение в технологии синтеза речи. Инновационные технологии, такие как FSQ и блочное согласование причинно-следственных связей, обеспечивают высокую производительность и простоту использования модели, а большой набор обучающих данных и точный контроль стилей речи позволяют ей справляться с широким спектром сложных сценариев применения речи.

Хотя CosyVoice 2 еще нуждается в дальнейшем совершенствовании с точки зрения поддержки нескольких языков и обработки сложных языковых сценариев, он закладывает прочный фундамент для будущих технологий синтеза речи, особенно в области потокового мультимедиа и генерации речи в реальном времени, которая имеет широкие перспективы развития. Будь то голосовой помощник AI, интеллектуальное обслуживание клиентов или перевод в реальном времени, CosyVoice 2 демонстрирует свой мощный потенциал и прокладывает путь к дальнейшим прорывам в технологии синтеза речи.

Ссылка:

https://arxiv.org/abs/2412.10117
https://huggingface.co/spaces/FunAudioLLM/CosyVoice2-0.5B
https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

"Клонирование в один клик": недавно выпущенный GPT-SoVITS V2 позволяет вашему голосу летать свободно!

Новости ИИ

2 года назад

063.1K

PixVerse V4 переиздается с улучшенной реалистичностью видео, звуком и скоростью!

Новости ИИ

1 год назад

055.2K

Иллюзия большой модели: рейтинги HHEM дают представление о состоянии фактической последовательности в LLM

Новости ИИ

1 год назад

073.1K

Deep Research：一款深度探索知识并生成报告的新工具，Google给出的主题知识研究新范式

Deep Research: новый инструмент для глубокого изучения знаний и создания отчетов, новая парадигма для исследования знаний по предмету, предложенная компанией Google

Новости ИИ

1 год назад

054.3K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

1. Обзор

2. Дебют CosyVoice 2: от основ к прорыву

3. технология и сильные стороны, лежащие в основе инновации

4. Эффективность CosyVoice 2: как он решает реальные проблемы

5. Заключение

Refly официально открыта для регистрации, это лучшая рабочая платформа для создателей слов.

Сотрудники Google обсуждают "SEO мертво", так как результаты поиска, созданные искусственным интеллектом, оказывают влияние?

Похожие посты

"Клонирование в один клик": недавно выпущенный GPT-SoVITS V2 позволяет вашему голосу летать свободно!

PixVerse V4 переиздается с улучшенной реалистичностью видео, звуком и скоростью!

Иллюзия большой модели: рейтинги HHEM дают представление о состоянии фактической последовательности в LLM

Deep Research: новый инструмент для глубокого изучения знаний и создания отчетов, новая парадигма для исследования знаний по предмету, предложенная компанией Google

Нет комментариев

Последние коллекции

Последние статьи

Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

1. Обзор

2. Дебют CosyVoice 2: от основ к прорыву

3. технология и сильные стороны, лежащие в основе инновации

4. Эффективность CosyVoice 2: как он решает реальные проблемы

5. Заключение

Refly официально открыта для регистрации, это лучшая рабочая платформа для создателей слов.

Сотрудники Google обсуждают "SEO мертво", так как результаты поиска, созданные искусственным интеллектом, оказывают влияние?

Похожие посты

"Клонирование в один клик": недавно выпущенный GPT-SoVITS V2 позволяет вашему голосу летать свободно!

PixVerse V4 переиздается с улучшенной реалистичностью видео, звуком и скоростью!

Иллюзия большой модели: рейтинги HHEM дают представление о состоянии фактической последовательности в LLM

Deep Research: новый инструмент для глубокого изучения знаний и создания отчетов, новая парадигма для исследования знаний по предмету, предложенная компанией Google

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи