SpeechGPT 2.0-preview: сквозная макромодель антропоморфного речевого диалога для взаимодействия в реальном времени

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

54.2K 00

Общее введение

SpeechGPT 2.0-preview - первая антропоморфная система взаимодействия в реальном времени, представленная OpenMOSS, обученная на миллионах часов речевых данных. SpeechGPT 2.0-preview - это первая антропоморфная система взаимодействия в реальном времени, основанная на миллионах часов голосовых данных, которая оснащена антропоморфным речевым выражением и 100 мс низкой задержкой отклика, поддерживая естественные и плавные прерывания в реальном времени. SpeechGPT 2.0-preview может согласовать два режима - голос и текст, и продемонстрировать способность точного управления и интеллектуального переключения нескольких эмоций, нескольких стилей и нескольких тонов. Он может не только имитировать тон и эмоциональное состояние различных персонажей, но и обладает разнообразными голосовыми талантами, такими как чтение стихов, рассказывание историй и диалектная речь. Кроме того, SpeechGPT 2.0-preview поддерживает вызов инструментов, сетевой поиск и базу знаний плагинов, обеспечивая богатые возможности голосового выражения и работы с текстом.

Адрес для демонстрации: https://sp2.open-moss.com/

Список функций

Антропоморфные разговорные выражения
Низкая задержка отклика в сотни миллисекунд
Мульти-эмоциональный, мульти-стилевой, мульти-тональный контроль
способность к ролевым играм
Голосовые таланты, такие как чтение стихов, рассказывание историй и говорение на языках
Поддержка обращений к инструментам, поиск в сети и база знаний по подключаемым модулям
Эффективная система сбора голосовых данных
Универсальный и эффективный конвейер очистки речевых данных
Полноспектральная система аннотирования речевых данных с несколькими гранулярностями
Совместное семантико-акустическое моделирование потоковых речевых кодеков с ультранизким битрейтом

Использование помощи

Процесс установки

Хранилище клонирования:

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

Загрузите модель весов (для этого необходимо установить git-lfs):

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

Подготовьте окружающую среду:

   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

Запустите веб-демонстрацию:

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Функции Поток операций

Антропоморфные разговорные выраженияSpeechGPT 2.0-preview способен имитировать устную речь человека и обеспечивать естественный и плавный диалог.
Низкая задержка отклика: Система реагирует на ввод пользователя на уровне сотен миллисекунд, обеспечивая взаимодействие в реальном времени.
Мульти-эмоциональный, мульти-стилевой, мульти-тональный контроль: Пользователи могут управлять эмоциями, стилем и тембром системы с помощью команд, адаптируясь к различным сценариям диалога.
ролевая игра (игра): Система способна имитировать тон голоса и эмоциональное состояние различных персонажей и подходит для широкого спектра сценариев применения.
фонологическая одаренностьSpeechGPT 2.0-preview обогащает диалог разнообразными голосовыми талантами, такими как чтение стихов, рассказывание историй и выражение диалектов.
Вызовы инструментов и поиск в сети: Система поддерживает вызов внешних инструментов и проведение сетевого поиска, расширяя функциональность диалога и доступ к информации.
База знаний о плагинах: Обращаясь к внешней базе знаний, система может давать более подробные и профессиональные ответы.

Пример использования

эмоциональный контроль: Пользователь может ввести команду "Рассказать анекдот веселым тоном", и система расскажет анекдот веселым тоном.
ролевая игра (игра): Введите команду "Имитировать тон голоса учителя для объяснения квадратичных функций", и система будет объяснять тоном учителя.
фонологическая одаренность: Введите команду "Рассказать историю на диалекте", и система расскажет историю на указанном диалекте.

Благодаря приведенным выше шагам и примерам пользователи смогут в полной мере оценить мощные функции и разнообразные сценарии применения SpeechGPT 2.0-preview.