综合介绍
SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 对齐了语音和文本两个模态,展现出多情感、多风格、多音色的精准控制与智能切换能力。它不仅能够模拟各类角色的语气和情感状态,还具备诗歌朗诵、故事讲述、说方言等多种语音才艺。此外,SpeechGPT 2.0-preview 还支持工具调用、联网搜索和外挂知识库等功能,提供了丰富的语音表现力和文本能力。
功能列表
- 拟人口语化表达
- 百毫秒级低延迟响应
- 多情感、多风格、多音色控制
- 角色扮演能力
- 诗歌朗诵、故事讲述、说方言等语音才艺
- 支持工具调用、联网搜索和外挂知识库
- 高效语音数据爬取系统
- 多功能高效率语音数据清洗 pipeline
- 全方面多粒度语音数据标注系统
- 语义-声学联合建模的超低比特率流式语音 Codec
使用帮助
安装流程
- 克隆仓库:
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- 下载模型权重(需要安装 git-lfs):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- 准备环境:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- 启动网页 demo:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
功能操作流程
- 拟人口语化表达:SpeechGPT 2.0-preview 能够模拟人类的口语表达方式,提供自然流畅的对话体验。
- 低延迟响应:系统在百毫秒级别内响应用户输入,实现实时交互。
- 多情感、多风格、多音色控制:用户可以通过指令控制系统的情感、风格和音色,适应不同的对话场景。
- 角色扮演:系统能够模拟不同角色的语气和情感状态,适用于多种应用场景。
- 语音才艺:SpeechGPT 2.0-preview 具备诗歌朗诵、故事讲述和方言表达等多种语音才艺,丰富了对话内容。
- 工具调用和联网搜索:系统支持调用外部工具和进行联网搜索,扩展了对话的功能性和信息获取能力。
- 外挂知识库:通过接入外部知识库,系统能够提供更为详尽和专业的回答。
使用示例
- 情感控制:用户可以输入指令“用开心的语气讲一个笑话”,系统会用愉快的语气讲述笑话。
- 角色扮演:输入指令“模拟一个老师的语气解释二次函数”,系统会用老师的语气进行解释。
- 语音才艺:输入指令“用方言讲一个故事”,系统会用指定的方言讲述故事。
通过以上步骤和示例,用户可以充分体验 SpeechGPT 2.0-preview 的强大功能和多样化应用场景。