SpeechGPT 2.0-preview: сквозная макромодель антропоморфного речевого диалога для взаимодействия в реальном времени
Общее введение
SpeechGPT 2.0-preview - первая антропоморфная система взаимодействия в реальном времени, представленная OpenMOSS, обученная на миллионах часов речевых данных. SpeechGPT 2.0-preview - это первая антропоморфная система взаимодействия в реальном времени, основанная на миллионах часов голосовых данных, которая оснащена антропоморфным речевым выражением и 100 мс низкой задержкой отклика, поддерживая естественные и плавные прерывания в реальном времени. SpeechGPT 2.0-preview может согласовать два режима - голос и текст, и продемонстрировать способность точного управления и интеллектуального переключения нескольких эмоций, нескольких стилей и нескольких тонов. Он может не только имитировать тон и эмоциональное состояние различных персонажей, но и обладает разнообразными голосовыми талантами, такими как чтение стихов, рассказывание историй и диалектная речь. Кроме того, SpeechGPT 2.0-preview поддерживает вызов инструментов, сетевой поиск и базу знаний плагинов, обеспечивая богатые возможности голосового выражения и работы с текстом.


Адрес для демонстрации: https://sp2.open-moss.com/
Список функций
- Антропоморфные разговорные выражения
- Низкая задержка отклика в сотни миллисекунд
- Мульти-эмоциональный, мульти-стилевой, мульти-тональный контроль
- способность к ролевым играм
- Голосовые таланты, такие как чтение стихов, рассказывание историй и говорение на языках
- Поддержка обращений к инструментам, поиск в сети и база знаний по подключаемым модулям
- Эффективная система сбора голосовых данных
- Универсальный и эффективный конвейер очистки речевых данных
- Полноспектральная система аннотирования речевых данных с несколькими гранулярностями
- Совместное семантико-акустическое моделирование потоковых речевых кодеков с ультранизким битрейтом
Использование помощи
Процесс установки
- Хранилище клонирования:
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- Загрузите модель весов (для этого необходимо установить git-lfs):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- Подготовьте окружающую среду:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- Запустите веб-демонстрацию:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
Функции Поток операций
- Антропоморфные разговорные выраженияSpeechGPT 2.0-preview способен имитировать устную речь человека и обеспечивать естественный и плавный диалог.
- Низкая задержка отклика: Система реагирует на ввод пользователя на уровне сотен миллисекунд, обеспечивая взаимодействие в реальном времени.
- Мульти-эмоциональный, мульти-стилевой, мульти-тональный контроль: Пользователи могут управлять эмоциями, стилем и тембром системы с помощью команд, адаптируясь к различным сценариям диалога.
- ролевая игра (игра): Система способна имитировать тон голоса и эмоциональное состояние различных персонажей и подходит для широкого спектра сценариев применения.
- фонологическая одаренностьSpeechGPT 2.0-preview обогащает диалог разнообразными голосовыми талантами, такими как чтение стихов, рассказывание историй и выражение диалектов.
- Вызовы инструментов и поиск в сети: Система поддерживает вызов внешних инструментов и проведение сетевого поиска, расширяя функциональность диалога и доступ к информации.
- База знаний о плагинах: Обращаясь к внешней базе знаний, система может давать более подробные и профессиональные ответы.
Пример использования
- эмоциональный контроль: Пользователь может ввести команду "Рассказать анекдот веселым тоном", и система расскажет анекдот веселым тоном.
- ролевая игра (игра): Введите команду "Имитировать тон голоса учителя для объяснения квадратичных функций", и система будет объяснять тоном учителя.
- фонологическая одаренность: Введите команду "Рассказать историю на диалекте", и система расскажет историю на указанном диалекте.
Благодаря приведенным выше шагам и примерам пользователи смогут в полной мере оценить мощные функции и разнообразные сценарии применения SpeechGPT 2.0-preview.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...