StepAudio 2.5 ASR - 阶跃星辰发布的新一代自动语音识别模型

Latest AI Resources21hrs agorelease AI Sharing Circle

1.8K 00

StepAudio 2.5 ASR是什么

StepAudio 2.5 ASR 是阶跃星辰发布的新一代自动语音识别模型。模型全球首次将大语言模型领域的 Multi-Token Prediction（MTP，多Token预测）技术引入语音识别领域，基于 ASR+MTP-5 深度融合架构，在推理速度与转写精度两个维度均实现显著提升。模型采用 4B 参数深度优化，复用 LLM 原生 32K 上下文窗口，支持单次完整转写最长 30 分钟的音频，避免了传统"切片-转写-拼接"方案导致的上下文断裂与后段精度衰减问题。实测推理速度提升 400%，时延降低 60%，推理峰值达 500 tokens/s，推理成本直降 80%，API 定价仅 0.15 元/小时，在新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上综合转写精度达到业内 SOTA 水准。

StepAudio 2.5 ASR的功能特色

首创 ASR+MTP-5 融合架构：将大语言模型推理加速技术移植至语音识别领域，单步并行预测多个 Token，通过候选验证机制大幅削减串行等待周期。
极速推理：RTF（实时率）低至 0.0053，转写 1 小时音频仅需约 19 秒；5 分钟音频 1 秒内即可出完整转写结果。
SOTA 转写精度：在覆盖新闻、会议、强噪声环境的多个中英文权威测试集上，中英文错误率全面刷新行业基线。
超长音频原生支持：复用 LLM 原生 32K 上下文窗口，单次可完整转写最长 30 分钟音频，无需切片拼接。
多语言与方言支持：除标准中英文外，在阿拉伯语、日语、粤语及多种中文方言（四川话、上海话、安徽话等）和口音普通话上均有优异表现。
低成本高并发：算力成本直降 80%，同等算力下并发路数提升至原先 5 倍，API 定价仅为上代 Step ASR 2 的 1/10。

StepAudio 2.5 ASR的核心优势

首创 ASR+MTP-5 融合架构：全球首次将大语言模型领域的 Multi-Token Prediction（多 Token 预测）技术引入语音识别，单步并行预测多个 Token，通过候选验证机制大幅削减串行等待周期。
极速推理，延迟极低：推理峰值达 500 tokens/s，引擎侧 RTF 低至 0.0053；5 分钟音频 1 秒内即可输出完整转写结果，转写 1 小时音频仅需约 19 秒The
SOTA 级转写精度：在覆盖新闻播报、会议访谈、强噪声环境等多个中英文权威测试集上，综合转写精度达到业内 SOTA 水准。
原生超长音频支持：复用 LLM 原生 32K 上下文窗口，单次可完整转写最长 30 分钟音频，无需"切片-转写-拼接"，避免上下文断裂与后段精度衰减。
多语言与方言覆盖广：除标准中英文外，在阿拉伯语、日语、粤语及四川话、上海话、安徽话等多种中文方言和口音普通话上均有优异表现。
成本直降，高并发友好：推理成本降低 80%，同等算力下并发路数提升至原先 5 倍；API 定价仅 0.15 元/小时，为上代 Step ASR 2 的 1/10。

StepAudio 2.5 ASR官网是什么

Technical Papers：https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
Online Experience Demo：https://stepaudiollm.github.io/step-audio-2.5-asr/