Fun-ASR1.5 - 阿里通义实验室发布的语音识别大模型

最新AI资源15小时前发布 AI分享圈

1.7K 00

Fun-ASR1.5是什么

Fun-ASR1.5是阿里通义实验室发布的语音识别大模型，采用MoE架构，单模型即可覆盖30种语言、汉语七大方言体系及20余种地方口音，支持跨语种自由混说识别与古诗词吟诵精准转写。模型基于数十万小时真实方言数据训练，典型方言场景字错误率相对下降56.2%，具备智能语音内容整理能力，可自动插入标点、转换口语化数字表达。目前已通过阿里云百炼平台提供API服务，在魔搭社区免费开放体验，广泛应用于跨国会议、地方政务、传媒采编及传统文化数字化等领域。

Fun-ASR1.5 - 阿里通义实验室发布的语音识别大模型

Fun-ASR1.5的功能特色

多语言全覆盖：单模型支持中文、英、日、韩、法、德、西、葡、俄、意、阿拉伯语等 30种主流语言 的精准识别。
汉语七大方言体系：深度适配官话、吴、湘、赣、客、闽、粤七大方言及 20+地区口音，覆盖中原、西南、粤语、东北、北京、港台等复杂方言场景。
跨语种自由混说识别（Code-Switching）：同一段对话中夹杂多种语言时，无需预设语种标签，模型可自动检测并实时切换识别，保证转写准确性。
古诗词专项优化：构建覆盖先秦至近代的古诗词语音-文本对齐语料库，内部评测集 字符级准确率达97%，可精准转写《诗经》《楚辞》、李白杜甫诗集等经典诵读。
智能语音内容整理（ITN）：基于上下文语义自动插入标点符号；将口语化表达自动转为规范格式，如"三千五百六十二"→"3562"、"五万八千块"→"58000元"、"幺三八零零幺三八零零零"→"13800138000"。

Fun-ASR1.5的核心优势

方言识别精度大幅提升：基于数十万小时真实方言语音数据训练，典型方言场景下 字错误率（CER）相对下降56.2%；其中5种方言准确率突破90%，15种超过80%。
MoE架构高效灵活：采用混合专家（MoE）架构，听到特定语言时仅激活相关部分进行处理，分工协作更灵活高效。
原汁原味还原方言：可精准输出方言特色用词，如上海话"侬"、苏州话"倷"等，为下游模型处理方言文字提供准确基础语料。
降低后期人工成本：在会议纪要、采访录音、司法笔录整理等场景中，显著减少人工校对和编辑工作量。

使用Fun-ASR1.5的操作步骤

注册并登录平台：访问阿里云百炼 https://bailian.console.aliyun.com 或魔搭社区https://modelscope.cn/studios/iic/FunAudio-ASR），完成账号注册与实名认证。
获取API访问权限：在阿里云百炼控制台创建应用，获取API Key和访问密钥；若使用魔搭社区，可直接进入在线体验页面免费试用。
准备音频文件：上传待识别的音频文件，支持多种常见格式；确保音频清晰，方言或混说场景无需预先标注语种标签。
配置识别参数：根据需求选择识别模式（多语言、方言、古诗词吟诵等），开启智能语音内容整理（ITN）功能以自动转换口语化数字和标点。
发起识别请求：通过API接口或在线体验页面上传音频，模型将自动检测语种并实时转写；支持流式识别与批量文件处理。
获取并导出结果：查看转写文本，系统自动完成标点插入、数字规范化等后处理；可将结果导出为文本文件或接入下游业务系统。

Fun-ASR1.5的适用人群

跨国企业与外贸从业者：需要处理中英日韩法等30种语言混说的会议录音、商务谈判或国际学术交流，无需手动切换语种即可实现精准转写。
基层政务与教育工作者：面向县域政府、地方学校等需要处理方言授课录音、政务语音录入的场景，支持官话、吴、粤等七大方言及20余种口音识别。
传媒与内容创作者：新闻记者采访录音整理、多语种短视频字幕生成、播客内容转写，借助智能语音内容整理（ITN）自动完成标点与数字规范化，降低后期剪辑成本。
法律与商务人士：适用于法庭笔录快速转写、企业会议纪要自动生成、合同谈判录音归档，大幅减少人工校对与文字编辑工作量。
传统文化与语言研究者：从事古诗词吟诵数字化、方言保护项目、非遗文化传承及中小学语文教育的群体，可精准转写《诗经》《楚辞》等经典诵读内容。

Fun-ASR1.5的常见问题

Q：同一段音频中多种语言混说，模型能识别吗？

A：可以。Fun-ASR1.5支持跨语种自由混说识别（Code-Switching），无需预设语种标签，可自动检测并实时切换识别，保证转写准确性。

Q：Fun-ASR1.5在方言识别上的准确率如何？

A：基于数十万小时真实方言数据训练，典型方言场景下字错误率（CER）相对下降56.2%，其中5种方言准确率突破90%，15种超过80%。

Q：Fun-ASR1.5能识别古诗词吟诵吗？

A：可以。模型构建了覆盖先秦至近代的古诗词语音-文本对齐语料库，内部评测集字符级准确率达97%，可精准转写《诗经》《楚辞》及李白、杜甫诗集等经典诵读。

Q：Fun-ASR1.5采用什么技术架构？

A：采用混合专家（MoE）架构，听到特定语言时仅激活相关专家模块进行处理，分工协作更灵活高效，兼顾多语言覆盖与推理效率。

Q：使用Fun-ASR1.5需要预先设置音频语种吗？

A：不需要。模型具备自动语种检测能力，尤其在多语言混说和方言场景下无需人工预设标签，上传音频即可自动识别。

© 版权声明

文章版权归 AI分享圈所有，未经允许请勿转载。

相关文章

JoyAgent-JDGenie - 京东开源的轻量化通用多智能体系统

JoyAgent-JDGenie - 京东开源的轻量化通用多智能体系统

9个月前

056K

X-R1：在普通设备中低成本训练0.5B模型

X-R1：在普通设备中低成本训练0.5B模型

最新AI资源 # AI开源项目 # 大模型微调

1年前

054.3K

Qwen4Mac：在Mac菜单栏中使用千问（Qwen）大模型随时对话

Qwen4Mac：在Mac菜单栏中使用千问（Qwen）大模型随时对话

最新AI资源 # AI开源项目

1年前

057.5K

OpenHealthForAll：个人健康数据管理AI助手，上传检查报告定制健康计划

OpenHealthForAll：个人健康数据管理AI助手，上传检查报告定制健康计划

最新AI资源 # AI开源项目 # AI生活效率助手

1年前

060.3K

暂无评论

您必须登录才能参与评论！

none

暂无评论...