SpeechGPT 2.0-preview: сквозная макромодель антропоморфного речевого диалога для взаимодействия в реальном времени

Общее введение

SpeechGPT 2.0-preview - первая антропоморфная система взаимодействия в реальном времени, представленная OpenMOSS, обученная на миллионах часов речевых данных. SpeechGPT 2.0-preview - это первая антропоморфная система взаимодействия в реальном времени, основанная на миллионах часов голосовых данных, которая оснащена антропоморфным речевым выражением и 100 мс низкой задержкой отклика, поддерживая естественные и плавные прерывания в реальном времени. SpeechGPT 2.0-preview может согласовать два режима - голос и текст, и продемонстрировать способность точного управления и интеллектуального переключения нескольких эмоций, нескольких стилей и нескольких тонов. Он может не только имитировать тон и эмоциональное состояние различных персонажей, но и обладает разнообразными голосовыми талантами, такими как чтение стихов, рассказывание историй и диалектная речь. Кроме того, SpeechGPT 2.0-preview поддерживает вызов инструментов, сетевой поиск и базу знаний плагинов, обеспечивая богатые возможности голосового выражения и работы с текстом.

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

 

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

Адрес для демонстрации: https://sp2.open-moss.com/

 

Список функций

  • Антропоморфные разговорные выражения
  • Низкая задержка отклика в сотни миллисекунд
  • Мульти-эмоциональный, мульти-стилевой, мульти-тональный контроль
  • способность к ролевым играм
  • Голосовые таланты, такие как чтение стихов, рассказывание историй и говорение на языках
  • Поддержка обращений к инструментам, поиск в сети и база знаний по подключаемым модулям
  • Эффективная система сбора голосовых данных
  • Универсальный и эффективный конвейер очистки речевых данных
  • Полноспектральная система аннотирования речевых данных с несколькими гранулярностями
  • Совместное семантико-акустическое моделирование потоковых речевых кодеков с ультранизким битрейтом

 

Использование помощи

Процесс установки

  1. Хранилище клонирования:
   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
  1. Загрузите модель весов (для этого необходимо установить git-lfs):
   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  1. Подготовьте окружающую среду:
   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
  1. Запустите веб-демонстрацию:
   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

Функции Поток операций

  1. Антропоморфные разговорные выраженияSpeechGPT 2.0-preview способен имитировать устную речь человека и обеспечивать естественный и плавный диалог.
  2. Низкая задержка отклика: Система реагирует на ввод пользователя на уровне сотен миллисекунд, обеспечивая взаимодействие в реальном времени.
  3. Мульти-эмоциональный, мульти-стилевой, мульти-тональный контроль: Пользователи могут управлять эмоциями, стилем и тембром системы с помощью команд, адаптируясь к различным сценариям диалога.
  4. ролевая игра (игра): Система способна имитировать тон голоса и эмоциональное состояние различных персонажей и подходит для широкого спектра сценариев применения.
  5. фонологическая одаренностьSpeechGPT 2.0-preview обогащает диалог разнообразными голосовыми талантами, такими как чтение стихов, рассказывание историй и выражение диалектов.
  6. Вызовы инструментов и поиск в сети: Система поддерживает вызов внешних инструментов и проведение сетевого поиска, расширяя функциональность диалога и доступ к информации.
  7. База знаний о плагинах: Обращаясь к внешней базе знаний, система может давать более подробные и профессиональные ответы.

Пример использования

  • эмоциональный контроль: Пользователь может ввести команду "Рассказать анекдот веселым тоном", и система расскажет анекдот веселым тоном.
  • ролевая игра (игра): Введите команду "Имитировать тон голоса учителя для объяснения квадратичных функций", и система будет объяснять тоном учителя.
  • фонологическая одаренность: Введите команду "Рассказать историю на диалекте", и система расскажет историю на указанном диалекте.

Благодаря приведенным выше шагам и примерам пользователи смогут в полной мере оценить мощные функции и разнообразные сценарии применения SpeechGPT 2.0-preview.

© заявление об авторских правах

Похожие статьи

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...