AI个人学习
和实操指南

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

综合介绍

SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 对齐了语音和文本两个模态,展现出多情感、多风格、多音色的精准控制与智能切换能力。它不仅能够模拟各类角色的语气和情感状态,还具备诗歌朗诵、故事讲述、说方言等多种语音才艺。此外,SpeechGPT 2.0-preview 还支持工具调用、联网搜索和外挂知识库等功能,提供了丰富的语音表现力和文本能力。

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型-1


 

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型-1

演示地址:https://sp2.open-moss.com/

 

功能列表

  • 拟人口语化表达
  • 百毫秒级低延迟响应
  • 多情感、多风格、多音色控制
  • 角色扮演能力
  • 诗歌朗诵、故事讲述、说方言等语音才艺
  • 支持工具调用、联网搜索和外挂知识库
  • 高效语音数据爬取系统
  • 多功能高效率语音数据清洗 pipeline
  • 全方面多粒度语音数据标注系统
  • 语义-声学联合建模的超低比特率流式语音 Codec

 

使用帮助

安装流程

  1. 克隆仓库:
   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
  1. 下载模型权重(需要安装 git-lfs):
   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  1. 准备环境:
   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
  1. 启动网页 demo:
   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

功能操作流程

  1. 拟人口语化表达:SpeechGPT 2.0-preview 能够模拟人类的口语表达方式,提供自然流畅的对话体验。
  2. 低延迟响应:系统在百毫秒级别内响应用户输入,实现实时交互。
  3. 多情感、多风格、多音色控制:用户可以通过指令控制系统的情感、风格和音色,适应不同的对话场景。
  4. 角色扮演:系统能够模拟不同角色的语气和情感状态,适用于多种应用场景。
  5. 语音才艺:SpeechGPT 2.0-preview 具备诗歌朗诵、故事讲述和方言表达等多种语音才艺,丰富了对话内容。
  6. 工具调用和联网搜索:系统支持调用外部工具和进行联网搜索,扩展了对话的功能性和信息获取能力。
  7. 外挂知识库:通过接入外部知识库,系统能够提供更为详尽和专业的回答。

使用示例

  • 情感控制:用户可以输入指令“用开心的语气讲一个笑话”,系统会用愉快的语气讲述笑话。
  • 角色扮演:输入指令“模拟一个老师的语气解释二次函数”,系统会用老师的语气进行解释。
  • 语音才艺:输入指令“用方言讲一个故事”,系统会用指定的方言讲述故事。

通过以上步骤和示例,用户可以充分体验 SpeechGPT 2.0-preview 的强大功能和多样化应用场景。

未经允许不得转载:首席AI分享圈 » SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文