Qwen3.5-LiveTranslate - 阿里通义千问发布的实时语音翻译大模型

堆友AI

Qwen3.5-LiveTranslate是什么

クウェン3.5-LiveTranslate 是阿里巴巴通义千问团队发布的实时语音翻译大模型,基于 Qwen3.5-Omni Thinker-Talker 架构打造。模型支持 60 种语言的音频输入与文本输出、29 种语言的音频输出,端到端字均延迟低至 2.8 秒,首次实现动态跨语言实时音色克隆,可在翻译过程中保留说话人的原声特征。通过引入"可读单元"流式策略、热词引擎及多模态视觉消歧能力,模型在跨境直播、跨国会议、智能硬件等实时同传场景中实现了低延迟、高准确率的自然语言交互体验。

Qwen3.5-LiveTranslate - 阿里通义千问发布的实时语音翻译大模型

Qwen3.5-LiveTranslate的功能特色

  • 60 种语言实时同传:支持 60 种语言的音频输入与文本输出,覆盖全球主流语种及区域语言,满足多语互译需求。
  • 29 种语言语音输出:支持 29 种语言的音频合成输出,相比上一代从 10 种大幅提升。
  • 实时音色克隆:动态跨语言音色克隆技术,仅需一句语音即可实时捕捉并复刻说话人声纹特征,译文听起来像"同一个人在说目标语言"。
  • 多模态视觉消歧:结合视觉信息(口型、手势、屏幕文字、实物画面)辅助判断,在音频模糊或一词多义场景下自动引入视觉上下文提升翻译准确性。
  • 热词引擎:内置动态热词能力,最高支持 1000 个自定义词条,可针对行业术语、品牌名、人名、产品型号等进行优先识别与精准翻译。
  • Readable Unit 流式翻译:采用 chunk-wise 流式输入机制与可读单元控制语音合成粒度,实现边听边翻的连续流式输出,无需等待完整句子结束。
  • 数字与古文精准翻译:针对直播带货中的商品参数、价格、折扣数字,以及古典文言文、文化内容等实现高准确率同传,保留语义连贯与文化韵味。

Qwen3.5-LiveTranslate的核心优势

  • 超低遅延:端到端字均延迟仅 2.8 秒,首字延迟相比上一代降低 3.45 秒,字均延迟降低 1.88 秒,翻译质量几乎无损。
  • 语种覆盖大幅提升:输入输出文本语种从 18 种扩展至 60 种,输出音频语种从 10 种扩展至 29 种,覆盖范围提升超 2 倍。
  • 音质鲁棒性强:在嘈杂环境、回声、重叠语音、口音复杂等恶劣声学条件下,通过视觉增强与语义单元预测技术保持高翻译准确率。
  • 行业术语零差错:热词引擎支持运行时动态注入领域词表,对医疗、法律、金融、技术发布会等专业场景的专有名词翻译可靠性显著优于通用翻译 API。
  • 基准测试领先:在 FLEURS 和 CoVoST2 公开多语言语音翻译基准上,翻译准确率优于 Gemini-2.5-Flash、GPT-4o-Audio-Preview 和 Voxtral Small-24B 等主流模型。

Qwen3.5-LiveTranslate的操作步骤

  • 注册阿里云账号:访问阿里云官网注册账号,并激活 Alibaba Cloud Model Studio 服务。
  • APIキーの取得:进入 Model Studio → API Keys 页面,生成 DashScope API Key,并设置为环境变量 DASHSCOPE_API_KEY.
  • 依存関係のインストール:安装 websocket-client とともに pyaudio 等 Python 依赖包,用于建立 WebSocket 连接与音频采集。
  • 建立 WebSocket 连接スルー wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime 建立持久双向连接,使用 Bearer トークン 认证,模型 ID 为 qwen3-livetranslate-flash-realtime.
  • 配置会话参数:发送会话配置事件,设置源语言与目标语言(支持 auto 自动识别),并开启所需的输出模态(文本/语音)。
  • 流式输入音频/视频:以 16kHz、16-bit PCM 单声道格式持续推送音频块,同时可并行推送视频帧,模型将实时返回翻译文本与合成语音。

Qwen3.5-LiveTranslate官网是什么

  • プロジェクトのウェブサイト:https://qwen.ai/blog?id=qwen3.5-livetranslate
  • 在线 Demo:https://omni.qwen.ai/live-translate

Qwen3.5-LiveTranslate的适用人群

  • 跨境电商与出海直播从业者:需要实时多语种直播带货、连麦互动、商品讲解的低延迟翻译支持。
  • 跨国企业与商务人士:参与国际会议、商务谈判、企业内训,需要专业术语精准翻译的同传服务。
  • 智能硬件开发者:为 AI 眼镜、翻译机、智能耳机等穿戴设备集成实时语音交互与翻译能力。
  • 在线教育与内容创作者:运营多语种在线课堂、影视出海、课程录播,需要保留原声特征的配音与字幕同步。
  • 医疗/法律/金融专业人士:在高度专业化的国际交流场景中,依赖热词引擎确保术语翻译零误差。

Qwen3.5-LiveTranslate的常见问题

Q:音色克隆需要多少样本?

A:仅需说话人的一句语音(单个 spoken sentence)即可实时捕捉声纹特征并复刻到翻译后的语音输出中。


Q:热词引擎最多支持多少自定义词条?

A:最高支持 1000 个自定义词条,可在运行时动态配置和实时更新,针对不同场景注入品牌名、医学术语、法律条款等专业词汇。


Q:音频输入有什么格式要求?

A:模型接受 16kHz、16-bit PCM 单声道音频输入,开发者需确保麦克风或音频源按此格式输出。


Q:视觉消歧具体如何工作? A:当音频存在歧义或质量下降时,模型会并行分析视频帧中的口型、手势、屏幕文字及实物画面,用视觉上下文辅助确定词义,显著降低"一词多义"导致的翻译错误。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません