SpeechGPT 2.0-preview：实时交互的端到端拟人语音对话大模型

52.1K 00

综合介绍

SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统，基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应，支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 对齐了语音和文本两个模态，展现出多情感、多风格、多音色的精准控制与智能切换能力。它不仅能够模拟各类角色的语气和情感状态，还具备诗歌朗诵、故事讲述、说方言等多种语音才艺。此外，SpeechGPT 2.0-preview 还支持工具调用、联网搜索和外挂知识库等功能，提供了丰富的语音表现力和文本能力。

演示地址：https://sp2.open-moss.com/

功能列表

拟人口语化表达
百毫秒级低延迟响应
多情感、多风格、多音色控制
角色扮演能力
诗歌朗诵、故事讲述、说方言等语音才艺
支持工具调用、联网搜索和外挂知识库
高效语音数据爬取系统
多功能高效率语音数据清洗 pipeline
全方面多粒度语音数据标注系统
语义-声学联合建模的超低比特率流式语音 Codec

使用帮助

安装流程

克隆仓库：

   git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

下载模型权重（需要安装 git-lfs）：

   git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

准备环境：

   pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

启动网页 demo：

   python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

功能操作流程

拟人口语化表达：SpeechGPT 2.0-preview 能够模拟人类的口语表达方式，提供自然流畅的对话体验。
低延迟响应：系统在百毫秒级别内响应用户输入，实现实时交互。
多情感、多风格、多音色控制：用户可以通过指令控制系统的情感、风格和音色，适应不同的对话场景。
角色扮演：系统能够模拟不同角色的语气和情感状态，适用于多种应用场景。
语音才艺：SpeechGPT 2.0-preview 具备诗歌朗诵、故事讲述和方言表达等多种语音才艺，丰富了对话内容。
工具调用和联网搜索：系统支持调用外部工具和进行联网搜索，扩展了对话的功能性和信息获取能力。
外挂知识库：通过接入外部知识库，系统能够提供更为详尽和专业的回答。

使用示例

情感控制：用户可以输入指令“用开心的语气讲一个笑话”，系统会用愉快的语气讲述笑话。
角色扮演：输入指令“模拟一个老师的语气解释二次函数”，系统会用老师的语气进行解释。
语音才艺：输入指令“用方言讲一个故事”，系统会用指定的方言讲述故事。

通过以上步骤和示例，用户可以充分体验 SpeechGPT 2.0-preview 的强大功能和多样化应用场景。

最新AI资源 # AI开源项目 # 多模态实时互动产品

文章版权归 AI分享圈所有，未经允许请勿转载。

基于Qdrant向量搜索引擎构建的MCP服务

最新AI资源 # AI开源项目 # MCP服务

1年前

060.3K

Simplified：一站式AI内容营销工具，简化您的营销流程

最新AI资源 # AI营销

1年前

055.6K

CodeGPT：面向开发人员的AI助手、提供多种AI编程助手集成到现有工作流

最新AI资源 # AI编程

1年前

056K

PP-OCRv5 - 百度开源的新一代文字识别AI模型

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

SpeechGPT 2.0-preview：实时交互的端到端拟人语音对话大模型

综合介绍

功能列表

使用帮助

安装流程

功能操作流程

使用示例

AnyVoice：在线免费克隆声音，只要3秒实现语音克隆

Weights：模仿声音翻唱歌曲和文本转语音的创作平台

相关文章

基于Qdrant向量搜索引擎构建的MCP服务

Simplified：一站式AI内容营销工具，简化您的营销流程

CodeGPT：面向开发人员的AI助手、提供多种AI编程助手集成到现有工作流

PP-OCRv5 - 百度开源的新一代文字识别AI模型

暂无评论

最新收录

最新文章

SpeechGPT 2.0-preview：实时交互的端到端拟人语音对话大模型

综合介绍

功能列表

使用帮助

安装流程

功能操作流程

使用示例

AnyVoice：在线免费克隆声音，只要3秒实现语音克隆

Weights：模仿声音翻唱歌曲和文本转语音的创作平台

相关文章

基于Qdrant向量搜索引擎构建的MCP服务

Simplified：一站式AI内容营销工具，简化您的营销流程

CodeGPT：面向开发人员的AI助手、提供多种AI编程助手集成到现有工作流

PP-OCRv5 - 百度开源的新一代文字识别AI模型

暂无评论

AI工具精选

最新收录

最新文章