StepAudio 2.5 Realtime - 阶跃星辰发布的新一代实时语音大模型

Últimos recursos sobre IAPublicado hace 3 meses Círculo de intercambio de inteligencia artificial

35.4K 00

StepAudio 2.5 Realtime是什么

StepAudio 2.5 Realtime 是阶跃星辰发布的新一代实时语音大模型，目前已全量上线开放平台。模型主打"活人感"对话体验，通过副语言感知、千万级人设自定义与双商进阶的对话能力，实现从文本对话到实时情感交流的质变。在官方4月评测中，主观对话体验得分80.41，显著领先GPT-Realtime-1.5（68.01）与Gemini Live（67.16），副语言理解得分82.18，达到行业顶级水准。

StepAudio 2.5 Realtime - 阶跃星辰发布的新一代实时语音大模型

StepAudio 2.5 Realtime的功能特色

副语言原生解析与合成：直接分析输入音频中的语调、语速、停顿、叹息、轻笑等非文本声学特征，不依赖纯文本转译，实时感知用户情绪并动态调整回应策略。
API级高颗粒度人设自定义：支持通过API精细调控AI角色的性格特质、背景经历、个人好恶及语言习惯，底层基于超10,000个原生人设裂变生成的百万级特征矩阵。
深度角色扮演与RLHF对齐：针对"人设崩塌"痛点进行RLHF优化，在极端压力测试下仍能保持高度稳定的角色一致性与指令遵循能力。
多领域知识调用：在实时对话中灵活调用跨领域知识，既能抛梗接梗，也能胜任专业HR面试等严肃场景。
预设人设快速体验：内置5种预设人设，供开发者与用户直接调用，零配置即可感受不同角色风格。

StepAudio 2.5 Realtime的核心优势

真人级深度感知：具备行业顶级副语言感知力，能仅凭音频信号推断说话人的声学特征与情绪状态，让交互摆脱"机械感"。
主观体验行业第一：在2026年4月五项评测维度中均位列第一，其中step_Dialogue_human_eval主观评分80.41，语音问答基准79.80，约为GPT-Realtime-1.5的1.5倍。
人设稳定性强：通过强化学习对齐优化，确保角色在长尾话题与极端情境下不漂移、不崩塌。
全双工低延迟交互：支持流式语音合成与实时音频理解，适用于对话场景的低延迟流式输出。
开放接入：已全量上线阶跃星辰开放平台，开发者可通过标准API或WebSocket接口直接接入。

StepAudio 2.5 Realtime官网是什么

Página web del proyecto：https://stepaudiollm.github.io/step-audio-2.5-realtime/
Experiencia en línea：https://www.stepfun.com/studio/audio?tab=voice-chat

使用StepAudio 2.5 Realtime的操作步骤

申请接入：访问阶跃星辰开放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-realtime，注册账号并获取 API 密钥，开发者通过 WebSocket 协议接入实时语音服务。
Parámetros de configuración：连接后发送 session.update 指令设定音频格式（如 pcm16）并选择模型版本。
自定义人设：在指令中详细定义角色性格、口癖、音色与对话边界，实现千万级人设自由定制。
Iniciar el diálogo：建立连接后可启动双向实时语音流，模型会自动感知情绪并生成带副语言细节的回应。
Experiencia en línea：普通用户无需代码，直接访问阶跃星辰体验中心选择预设人设即可开始真人感语音闲聊。

StepAudio 2.5 Realtime的适用人群

语音AI应用开发者：需为APP、智能硬件、车载系统接入具备情绪感知与角色扮演能力的实时语音交互。
情感陪伴/角色扮演产品团队：构建虚拟搭子、AI恋人、IP互动等高度依赖人设稳定性的产品。
企业客服与智能助理需求方：需要模拟专业HR、医疗导诊、教育助教等严肃场景语音服务。
内容创作者与IP方：希望将自有IP转化为具备独特语言风格与性格特征的AI语音角色。
车载语音交互开发商：对全双工对话、打断响应、语境理解有较高要求的车机系统团队。

StepAudio 2.5 Realtime的常见问题

Q：StepAudio 2.5 Realtime与StepAudio 2.5 TTS是什么关系？
A：StepAudio 2.5 Realtime全面继承了StepAudio 2.5 TTS的顶尖语音合成能力，并在此基础上叠加了实时对话、副语言感知与人设自定义能力。TTS侧重文本转语音，Realtime侧重实时语音交互。

Q：如何接入StepAudio 2.5 Realtime？
A：开发者可通过阶跃星辰开放平台的API接口接入，支持流式语音合成（WebSocket）与非流式语音合成（POST）两种模式。

Q：人设自定义需要准备多少素材？
A：平台基于超10,000个原生人设与百万级特征矩阵，开发者仅需通过API参数调节即可，无需自行准备训练数据。如需全新音色复刻，Zero-shot音色复刻仅需3秒参考音频。

Q：模型的延迟表现如何？
A：支持流式输出，适用于低延迟对话场景，具体端到端延迟需根据网络环境与调用方式实测。

Q：是否支持免费试用？
A：目前已全量上线，具体定价与免费额度请参照阶跃星辰开放平台官方计费说明。TTS服务参考价为5.8元/万字符，语音复刻9.9元/音色。