Fun-ASR1.5是什么
Fun-ASR1.5是阿里通义实验室发布的语音识别大模型,采用MoE架构,单模型即可覆盖30种语言、汉语七大方言体系及20余种地方口音,支持跨语种自由混说识别与古诗词吟诵精准转写。模型基于数十万小时真实方言数据训练,典型方言场景字错误率相对下降56.2%,具备智能语音内容整理能力,可自动插入标点、转换口语化数字表达。目前已通过阿里云百炼平台提供API服务,在魔搭社区免费开放体验,广泛应用于跨国会议、地方政务、传媒采编及传统文化数字化等领域。

Fun-ASR1.5的功能特色
- 多语言全覆盖:单模型支持中文、英、日、韩、法、德、西、葡、俄、意、阿拉伯语等 30种主流语言 的精准识别。
- 汉语七大方言体系:深度适配官话、吴、湘、赣、客、闽、粤七大方言及 20+地区口音,覆盖中原、西南、粤语、东北、北京、港台等复杂方言场景。
- 跨语种自由混说识别(Code-Switching):同一段对话中夹杂多种语言时,无需预设语种标签,模型可自动检测并实时切换识别,保证转写准确性。
- 古诗词专项优化:构建覆盖先秦至近代的古诗词语音-文本对齐语料库,内部评测集 字符级准确率达97%,可精准转写《诗经》《楚辞》、李白杜甫诗集等经典诵读。
- 智能语音内容整理(ITN):基于上下文语义自动插入标点符号;将口语化表达自动转为规范格式,如"三千五百六十二"→"3562"、"五万八千块"→"58000元"、"幺三八零零幺三八零零零"→"13800138000"。
Fun-ASR1.5的核心优势
- 方言识别精度大幅提升:基于数十万小时真实方言语音数据训练,典型方言场景下 字错误率(CER)相对下降56.2%;其中5种方言准确率突破90%,15种超过80%。
- MoE架构高效灵活:采用混合专家(MoE)架构,听到特定语言时仅激活相关部分进行处理,分工协作更灵活高效。
- 原汁原味还原方言:可精准输出方言特色用词,如上海话"侬"、苏州话"倷"等,为下游模型处理方言文字提供准确基础语料。
- 降低后期人工成本:在会议纪要、采访录音、司法笔录整理等场景中,显著减少人工校对和编辑工作量。
使用Fun-ASR1.5的操作步骤
- 注册并登录平台:访问阿里云百炼 https://bailian.console.aliyun.com 或魔搭社区https://modelscope.cn/studios/iic/FunAudio-ASR),完成账号注册与实名认证。
- 获取API访问权限:在阿里云百炼控制台创建应用,获取API Key和访问密钥;若使用魔搭社区,可直接进入在线体验页面免费试用。
- 准备音频文件:上传待识别的音频文件,支持多种常见格式;确保音频清晰,方言或混说场景无需预先标注语种标签。
- 配置识别参数:根据需求选择识别模式(多语言、方言、古诗词吟诵等),开启智能语音内容整理(ITN)功能以自动转换口语化数字和标点。
- 发起识别请求:通过API接口或在线体验页面上传音频,模型将自动检测语种并实时转写;支持流式识别与批量文件处理。
- 获取并导出结果:查看转写文本,系统自动完成标点插入、数字规范化等后处理;可将结果导出为文本文件或接入下游业务系统。
Fun-ASR1.5的适用人群
- 跨国企业与外贸从业者:需要处理中英日韩法等30种语言混说的会议录音、商务谈判或国际学术交流,无需手动切换语种即可实现精准转写。
- 基层政务与教育工作者:面向县域政府、地方学校等需要处理方言授课录音、政务语音录入的场景,支持官话、吴、粤等七大方言及20余种口音识别。
- 传媒与内容创作者:新闻记者采访录音整理、多语种短视频字幕生成、播客内容转写,借助智能语音内容整理(ITN)自动完成标点与数字规范化,降低后期剪辑成本。
- 法律与商务人士:适用于法庭笔录快速转写、企业会议纪要自动生成、合同谈判录音归档,大幅减少人工校对与文字编辑工作量。
- 传统文化与语言研究者:从事古诗词吟诵数字化、方言保护项目、非遗文化传承及中小学语文教育的群体,可精准转写《诗经》《楚辞》等经典诵读内容。
Fun-ASR1.5的常见问题
Q:同一段音频中多种语言混说,模型能识别吗?
A:可以。Fun-ASR1.5支持跨语种自由混说识别(Code-Switching),无需预设语种标签,可自动检测并实时切换识别,保证转写准确性。
Q:Fun-ASR1.5在方言识别上的准确率如何?
A:基于数十万小时真实方言数据训练,典型方言场景下字错误率(CER)相对下降56.2%,其中5种方言准确率突破90%,15种超过80%。
Q:Fun-ASR1.5能识别古诗词吟诵吗?
A:可以。模型构建了覆盖先秦至近代的古诗词语音-文本对齐语料库,内部评测集字符级准确率达97%,可精准转写《诗经》《楚辞》及李白、杜甫诗集等经典诵读 。
Q:Fun-ASR1.5采用什么技术架构?
A:采用混合专家(MoE)架构,听到特定语言时仅激活相关专家模块进行处理,分工协作更灵活高效,兼顾多语言覆盖与推理效率。
Q:使用Fun-ASR1.5需要预先设置音频语种吗?
A:不需要。模型具备自动语种检测能力,尤其在多语言混说和方言场景下无需人工预设标签,上传音频即可自动识别。
© 版权声明
文章版权归 AI分享圈 所有,未经允许请勿转载。
相关文章
暂无评论...




