Siliconcloud запускает ускоренную версию CosyVoice2: 150-минутный синтез речи в реальном времени, поддержка смешанных языков и диалектов

Новости ИИОбновлено 1 год назад Круг обмена ИИ

50.2K 00

Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言

Недавно речевая команда лаборатории Ali Tongyi официально выпустила модель синтеза речи.CosyVoice2. Модель поддерживает двунаправленную потоковую передачу текста и речи, поддерживает многоязычие, смешанные языки и диалекты, а также обеспечивает более точные, стабильные, быстрые и качественные возможности генерации речи. Теперь Siliconcloud, поток Siliconcloud на основе кремния, официально доступен онлайн с версией ускорения вывода CosyVoice2-0.5B (цена ￥105/ M UTF-8 байт, каждый символ занимает от 1 до 4 байт), которая включает время передачи данных по сети, что делает выходную задержку модели низкой до 150 мс, обеспечивая более эффективный пользовательский опыт для ваших генеративных приложений ИИ. Как и другие модели синтеза языка на SiliconCloud, CosyVoice2 поддерживает 8 предустановленных тонов, пользовательские тона, а также динамические тона, настраиваемые скорость речи, усиление звука и выходную частоту дискретизации.

Опыт работы в Интернете
https://cloud.siliconflow.cn/playground/text-to-speech/17885302679

Документация по API

https://docs.siliconflow.cn/api-reference/audio/create-speech

Ознакомьтесь с версией CosyVoice 2.0 от SiliconCloud, ускоренной с помощью выводов.

В сочетании с ранее представленной компанией SiliconCloudМодель распознавания речи Али SenseVoice-Small (доступна бесплатно)С помощью модели API разработчики могут эффективно создавать комплексные приложения для голосового взаимодействия, включая аудиокниги, потоковые аудиовыходы, виртуальные помощники и другие приложения.

Особенности и характеристики модели

CosyVoice2 это модель потокового синтеза речи, основанная на большой языковой модели и разработанная с использованием единого фреймворка потокового/непотокового вещания. Модель улучшает использование кодовой книги речевых лексем с помощью конечного скалярного квантования (FSQ), упрощает архитектуру языковой модели преобразования текста в речь и разрабатывает модель каузального согласования потоков с учетом чанков, которая поддерживает различные сценарии синтеза. В потоковом режиме модель достигает сверхнизкой задержки в 150 мс, сохраняя при этом почти такое же качество синтеза, как и в непотоковом режиме.

Кроме того, CosyVoice2 добился значительного прогресса в интеграции базовой модели и командной модели, не только продолжив поддержку эмоций, стилей речи и тонких команд управления, но и добавив возможность работы с китайскими командами.CosyVoice2 также представил функции ролевой игры, такие как возможность подражать роботам и стиль речи Свинки Пеппы.

В частности, версия 2.0 имеет следующие преимущества перед CosyVoice версии 1.0:

Поддержка нескольких языков

Поддерживаемые языки: китайский, английский, японский, корейский, китайские диалекты (кантонский, сычуаньский, шанхайский, тяньцзиньский, уханьский и др.)
Кросс-язык и смешанные языки: поддержка клонирования речи с нулевым образцом в сценариях кросс-языка и переключения кодов.

сверхнизкая задержка

Поддержка двунаправленного потокового вещания: CosyVoice 2.0 объединяет технологии автономного и потокового моделирования.
Быстрый синтез первого пакета: достижение задержек до 150 миллисекунд при сохранении высокого качества выходного аудиосигнала.

высокоточный

Улучшение произношения: количество ошибок произношения сократилось на 30% до 50% по сравнению с CosyVoice 1.0.
Достижение контрольной точки: достижение наименьшего числа ошибок в символах на сложном тестовом наборе оценочного набора Seed-TTS.

высокая стабильность

Согласованность тонов: обеспечивает надежную согласованность тонов при синтезе речи с нулевым образцом и межъязыковом синтезе.
Межъязыковой синтез: значительные улучшения по сравнению с версией 1.0.

естественная беглость речи

Усиление ритма и тональности: повышение балла оценки MOS с 5,4 до 5,53.
Эмоции и диалектная гибкость: поддерживает более тонкий контроль эмоций и регулировку диалектного акцента.

Оценка разработчиков

Как только CosyVoice 2.0 был выпущен, некоторые разработчики первым делом испытали его. Некоторые разработчики отметили, что он поддерживает сверхтонкие функции управления и более реалистичный и естественный синтез голоса. Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言 Однако, по словам некоторых пользователей, несмотря на то, что их привлекли превосходные характеристики генерации речи, развертывание стало серьезной проблемой. Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言 Теперь, когда Siliconcloud выпустила CosyVoice 2.0, устранив необходимость в сложных развертываниях, вы можете просто вызвать API и получить доступ к своим собственным приложениям.

Token Factory SiliconCloud Qwen 2.5 (7B) и еще 20+ других моделей бесплатно!

Будучи универсальной платформой облачных сервисов, SiliconCloud стремится предоставить разработчикам чрезвычайно отзывчивые, доступные, полные и гладкие API для моделей. В дополнение к CosyVoice2, SiliconCloud уже положила на полку целый ряд API для моделей, включая QVQ-72B-Preview, DeepSeek-VL2, DeepSeek- V2.5-1210, mochi-1-preview, Llama-3.3-70B-Instruct, HunyuanVideo, fish-speech-1.5, QwQ-32B-Preview, Qwen2.5-Coder-32B-Instruct, InternVL2 Qwen2.5-7B/14B/32B/72B, FLUX.1, InternLM2.5-20B-Chat, BCE, BGE, SenseVoice-Small, GLM-4-9B-Chat, а также десятки открытых моделей больших языков, моделей генерации изображений/видео, моделей речи, кодов/математических моделей и векторных моделей. и модели переупорядочивания. Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言 Среди них Qwen2.5 (7B), Llama3.1 (8B) и другие 20+ API больших моделей бесплатны для использования, так что разработчикам и менеджерам продуктов не нужно беспокоиться об арифметических затратах на этап исследований и разработок и масштабное продвижение, и реализовать "Token Freedom".

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Volcano Ark выпускает лабораторию приложений Big Model: шаблоны отраслевых приложений с открытым исходным кодом для ускорения внедрения ИИ на предприятиях

Новости ИИ

10 месяцев назад

030.9K

Sesame выпускает модель разговорной речи CSM: повышение естественности голосового взаимодействия с ИИ

Новости ИИ

10 месяцев назад

038.5K

Сравнение характеристик лучших инструментов для рисования искусственного интеллекта

Новости ИИ

12 месяцев назад

039.9K

Команда R7B: улучшенный поиск и обоснование, многоязыковая поддержка, быстрый и эффективный генеративный ИИ

Новости ИИ

12 месяцев назад

030.7K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Siliconcloud запускает ускоренную версию CosyVoice2: 150-минутный синтез речи в реальном времени, поддержка смешанных языков и диалектов