Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
6.9K 00
阿里巴巴AI研究院发布CosyVoice 2:改进的流式语音合成模型

 

1. Обзор

За последние годы технология синтеза речи достигла значительного прогресса, особенно в создании естественной и плавной речи в реальном времени. Однако такие проблемы, как задержка, точность произношения и согласованность речи с диктором, по-прежнему актуальны в реальных приложениях, особенно в потоковых приложениях, требующих высокой скорости реакции. Эти технические проблемы становятся особенно актуальными при работе со сложными языковыми данными, такими как "языковые" или полифонические слова, которые не под силу обработать существующим моделям. Для решения этих проблем исследователи Alibaba представили CosyVoice 2, обновленную модель для решения технических задач синтеза речи, которая призвана эффективно решить эти проблемы.

 

2. Дебют CosyVoice 2: от основ к прорыву

阿里巴巴AI研究院发布CosyVoice 2:改进的流式语音合成模型CosyVoice 2 основан на фундаменте оригинального CosyVoice и представляет собой значительное обновление технологии синтеза речи. Эта усовершенствованная модель не только оптимизирована для работы с потоковыми приложениями, но и добилась значительного прогресса в автономных приложениях. Повысилась ее адаптивность, гибкость и точность в самых разных сценариях применения, особенно в системах преобразования текста в речь и интерактивных речевых системах.

Основные моменты CosyVoice 2:

  • Унифицированные потоковые и непотоковые режимыCosyVoice 2 легко адаптируется к различным сценариям работы приложений, независимо от того, генерируются ли они в режиме реального времени или обрабатываются в автономном режиме, без ущерба для производительности.
  • Повышенная точность произношения: В сложных языковых средах CosyVoice 2 уменьшает количество ошибок произношения 30%-50% и значительно улучшает разборчивость речи, особенно при работе с многосложными словами или скороговорками.
  • повышенная конгруэнтность оратораНезависимо от того, идет ли речь о синтезе "с нуля" или межъязыковом синтезе, CosyVoice 2 обеспечивает согласованность выходных данных, чтобы каждый синтез был естественным и плавным.
  • Более точное командное управлениеПользователи могут точно контролировать тон, стиль и акцент своего голоса с помощью команд на естественном языке и даже подстраивать голосовые характеристики под эмоциональные потребности.

 

3. технология и сильные стороны, лежащие в основе инновации

阿里巴巴AI研究院发布CosyVoice 2:改进的流式语音合成模型

CosyVoice 2 смог решить ряд задач в области синтеза речи благодаря ряду инноваций в своей технологии.

  1. Метод конечной скалярной квантизации (FSQ): FSQ заменяет традиционный метод векторной квантизации, оптимизирует использование словарей с речевыми метками, улучшает возможности семантического представления и качество синтеза. Эта технологическая инновация не только повышает выразительные возможности модели, но и эффективно снижает сложность обработки данных.
  2. Упрощенная архитектура преобразования текста в речь: CosyVoice 2 основан на предварительно обученных больших языковых моделях (LLM), что устраняет необходимость в дополнительных кодировщиках текста и упрощает архитектуру модели для улучшения межъязыковой производительности. Такая архитектура делает CosyVoice 2 значительно более эффективным и точным при обработке нескольких языков.
  3. Согласование причинно-следственных потоков с учетом блоков: эта инновационная технология позволяет согласовывать семантические и акустические характеристики с минимальной задержкой, что дает CosyVoice 2 превосходные возможности для генерации речи в реальном времени, особенно для голосового взаимодействия в реальном времени и приложений потоковой передачи данных.
  4. Расширенный набор командных данных: благодаря более чем 1500 часам тренировочных данных CosyVoice 2 обеспечивает детальный контроль над различными акцентами, эмоциями и стилями голоса, делая синтез речи более гибким и выразительным. Будь то теплый тон голоса или напряженная эмоция, CosyVoice 2 способен точно уловить и передать их.

 

4. Эффективность CosyVoice 2: как он решает реальные проблемы

В ходе серии строгих оценочных испытаний CosyVoice 2 продемонстрировал неоспоримые преимущества, особенно в отношении низкой задержки, высокой точности и согласованности голоса.

  • Низкая задержка и высокая эффективностьВремя отклика при генерации речи составляет всего 150 миллисекунд, что позволяет использовать CosyVoice 2 в голосовых приложениях реального времени, таких как голосовые чаты и потоковое взаимодействие.
  • Повышение точности произношенияCosyVoice 2 значительно улучшает работу со сложными языковыми структурами (например, полислогами, языковыми оборотами и т. д.), значительно повышая точность произношения и уменьшая количество ошибок при синтезе повседневной речи.
  • Постоянная производительность динамиковCosyVoice 2 способен поддерживать высокую степень согласованности при выполнении различных задач синтеза, будь то межъязыковой синтез или синтез с нулевым результатом, при этом естественность и стабильность речи гарантированы.
  • многоязычиеCosyVoice 2 также демонстрирует хорошие результаты в бенчмарках для таких языков, как японский и корейский, и, несмотря на проблемы с некоторыми пересекающимися наборами символов, демонстрирует возможности межъязыкового синтеза.
  • Устойчивость в сложных сценарияхCosyVoice 2 продемонстрировал более высокую четкость и точность, чем предыдущие модели, в некоторых сложных речевых сценариях (например, при произнесении скороговорок), превзойдя предыдущие технические ограничения.
阿里巴巴AI研究院发布CosyVoice 2:改进的流式语音合成模型

 

5. Заключение

Выпуск CosyVoice 2 - важное достижение в технологии синтеза речи. Инновационные технологии, такие как FSQ и блочное согласование причинно-следственных связей, обеспечивают высокую производительность и простоту использования модели, а большой набор обучающих данных и точный контроль стилей речи позволяют ей справляться с широким спектром сложных сценариев применения речи.

Хотя CosyVoice 2 еще нуждается в дальнейшем совершенствовании с точки зрения поддержки нескольких языков и обработки сложных языковых сценариев, он закладывает прочный фундамент для будущих технологий синтеза речи, особенно в области потокового мультимедиа и генерации речи в реальном времени, которая имеет широкие перспективы развития. Будь то голосовой помощник AI, интеллектуальное обслуживание клиентов или перевод в реальном времени, CosyVoice 2 демонстрирует свой мощный потенциал и прокладывает путь к дальнейшим прорывам в технологии синтеза речи.

 

Ссылка:

  1. https://arxiv.org/abs/2412.10117
  2. https://huggingface.co/spaces/FunAudioLLM/CosyVoice2-0.5B
  3. https://www.modelscope.cn/models/iic/CosyVoice2-0.5B
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...