StepAudio 2.5 ASR - 阶跃星辰发布的新一代自动语音识别模型
StepAudio 2.5 ASR是什么
StepAudio 2.5 ASR 是阶跃星辰发布的新一代自动语音识别模型。模型全球首次将大语言模型领域的 Multi-Token Prediction(MTP,多Token预测)技术引入语音识别领域,基于 ASR+MTP-5 深度融合架构,在推理速度与转写精度两个维度均实现显著提升。模型采用 4B 参数深度优化,复用 LLM 原生 32K 上下文窗口,支持单次完整转写最长 30 分钟的音频,避免了传统"切片-转写-拼接"方案导致的上下文断裂与后段精度衰减问题。实测推理速度提升 400%,时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%,API 定价仅 0.15 元/小时,在新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上综合转写精度达到业内 SOTA 水准。

StepAudio 2.5 ASR的功能特色
- 首创 ASR+MTP-5 融合架构:将大语言模型推理加速技术移植至语音识别领域,单步并行预测多个 Token,通过候选验证机制大幅削减串行等待周期。
- 极速推理:RTF(实时率)低至 0.0053,转写 1 小时音频仅需约 19 秒;5 分钟音频 1 秒内即可出完整转写结果。
- SOTA 转写精度:在覆盖新闻、会议、强噪声环境的多个中英文权威测试集上,中英文错误率全面刷新行业基线。
- 超长音频原生支持:复用 LLM 原生 32K 上下文窗口,单次可完整转写最长 30 分钟音频,无需切片拼接。
- 多语言与方言支持:除标准中英文外,在阿拉伯语、日语、粤语及多种中文方言(四川话、上海话、安徽话等)和口音普通话上均有优异表现。
- 低成本高并发:算力成本直降 80%,同等算力下并发路数提升至原先 5 倍,API 定价仅为上代 Step ASR 2 的 1/10。
StepAudio 2.5 ASR的核心优势
- 首创 ASR+MTP-5 融合架构:全球首次将大语言模型领域的 Multi-Token Prediction(多 Token 预测)技术引入语音识别,单步并行预测多个 Token,通过候选验证机制大幅削减串行等待周期。
- 极速推理,延迟极低:推理峰值达 500 tokens/s,引擎侧 RTF 低至 0.0053;5 分钟音频 1 秒内即可输出完整转写结果,转写 1 小时音频仅需约 19 秒The
- SOTA 级转写精度:在覆盖新闻播报、会议访谈、强噪声环境等多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。
- 原生超长音频支持:复用 LLM 原生 32K 上下文窗口,单次可完整转写最长 30 分钟音频,无需"切片-转写-拼接",避免上下文断裂与后段精度衰减。
- 多语言与方言覆盖广:除标准中英文外,在阿拉伯语、日语、粤语及四川话、上海话、安徽话等多种中文方言和口音普通话上均有优异表现。
- 成本直降,高并发友好:推理成本降低 80%,同等算力下并发路数提升至原先 5 倍;API 定价仅 0.15 元/小时,为上代 Step ASR 2 的 1/10。
StepAudio 2.5 ASR官网是什么
- Technical Papers:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
- Online Experience Demo:https://stepaudiollm.github.io/step-audio-2.5-asr/
使用StepAudio 2.5 ASR的操作步骤
- Register for an account:访问阶跃星辰开放平台并完成注册。
- Get API Key:在控制台创建应用,获取调用所需的 API Key。
- 替换模型名:在原有 API 调用中,将模型名替换为
stepaudio-2.5-asr即可迁移,无需重构业务逻辑。 - Recall Example:支持标准 RESTful API 调用,上传音频文件或音频流即可获取转写文本。
- Step Plan 用户:已订阅 Step Plan 的用户可直接使用,无需额外配置。
StepAudio 2.5 ASR的适用人群
- Voice Agent 开发者:解决语音 Agent 首字响应慢的 ASR 瓶颈,实现低延迟语音交互。
- 会议转写与办公协作:实时会议纪要生成、历史会议录音批量转写。
- 直播与实时字幕:500 TPS 极速推理支撑实时字幕生成,延迟极低。
- 输入法与语音输入:高并发、低延迟的语音输入体验。
- 媒体内容处理:播客、访谈、视频字幕的批量自动化转写。
- 长音频识别:有声书、法庭录音、课堂录音等 30 分钟级长音频的一次性完整转写。
StepAudio 2.5 ASR的常见问题
Q:StepAudio 2.5 ASR 与上一代相比有哪些升级?
A:核心升级包括引入 MTP-5 多 Token 预测技术,推理速度提升 400%,时延降低 60%,成本直降 80%;同时复用 32K 上下文窗口,支持单次 30 分钟长音频完整转写,API 定价从上代降至 0.15 元/小时。
Q:什么是 RTF?0.0053 意味着什么?
A:RTF(Real-Time Factor,实时率)是语音识别领域的标准速度指标,表示"处理 1 秒音频所需的计算时间"。RTF = 0.0053 意味着处理 1 秒音频只需 0.0053 秒,转写 1 小时音频约 19 秒即可完成。
Q:如何接入 StepAudio 2.5 ASR?
A:已有阶跃星辰开放平台账号的用户,直接在 API 调用中将模型名替换为 stepaudio-2.5-asr 即可迁移;Step Plan 订阅用户可直接使用。
Q:支持哪些语言和方言?
A:除标准中英文外,模型在阿拉伯语、日语、粤语及四川话、上海话、安徽话、陕西话、广西话等多种中文方言和口音普通话上均有 SOTA 级表现。
Q:30 分钟长音频是原生支持还是需要切片? A:原生支持。模型复用 LLM 原生的 32K 上下文窗口,单次可完整转写最长 30 分钟音频,无需切片-转写-拼接,避免了上下文断裂与后段精度衰减。
© Copyright notes
Article copyright AI Sharing Circle All, please do not reproduce without permission.
Related articles
No comments...




