Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

49.7K 00

Qwen3-ASR-Flash是什么

Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型，基于 Qwen3 基座模型，经海量多模态数据训练而成。支持 11 种语言和多种口音，包括普通话、四川话、闽南语、吴语、粤语等方言，以及英式、美式英语等。核心特性包括领先的识别准确率、惊艳的歌声识别能力（错误率低于 8%）、定制化识别（用户可提供背景文本获得定制化结果）、语种识别与非人声拒识，以及在复杂声学环境中的高鲁棒性。用户可通过 ModelScope、Hugging Face 和阿里云百炼 API 免费体验该模型。

Qwen3-ASR-Flash的功能特色

高精度识别：在多个中英文及多语种 benchmark 测试中表现最优，能精准识别多种语言和方言。
歌声识别：支持清唱和带背景音乐的整首歌识别，实测错误率低于 8%。
定制化识别：用户可提供任意格式的背景文本，模型能据此调整识别结果，无需预处理。
语种识别与非人声拒识：能精确分辨语音语种，自动过滤非语音片段，如静音和背景噪声。
强鲁棒性：在复杂声学环境及面对长难句、句中语言切换等困难文本模式时，仍能保持高准确率。

Qwen3-ASR-Flash的核心优势

高精度识别：在多种语言和方言的识别测试中表现卓越，错误率低于同类竞品。
多语言支持：单模型支持 11 种语言和多种方言，涵盖普通话、英语、法语、德语等。
定制化识别：用户可提供任意格式的背景文本，模型能智能利用上下文信息，输出定制化的识别结果。
歌声识别：支持清唱和带背景音乐的整首歌识别，实测错误率低于 8%，在歌声识别领域表现优异。
语种识别与非人声拒识：能够精确分辨语音语种，并自动过滤非语音片段，如静音和背景噪声，提升识别效率。
强鲁棒性：在复杂声学环境和面对长难句、句中语言切换等困难文本模式时，仍能保持高准确率。

Qwen3-ASR-Flash官网是什么

项目官网：https://bailian.console.aliyun.com/?spm=5176.29597918.J_tAwMEW-mKC1CPxlfy227s.1.4f007b08aWhTjW&tab=model#/model-market/detail/group-qwen3-asr-flash?modelGroup=group-qwen3-asr-flash
在线体验Demo：https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo