AI个人学习
和实操指南
讯飞绘镜

Sesame 发布对话语音模型 CSM:让 AI 语音交互更自然

近日,由 Brendan Iribe、Ankit Kumar 以及 Sesame 团队发表的一篇博文,介绍了该公司在对话式语音生成领域的最新研究成果——对话式语音模型(Conversational Speech Model,简称 CSM)。该模型致力于解决当前语音助手在交互中缺乏情感、不够自然的问题,让 AI 语音交互更接近人类水平。

 

跨越“恐怖谷”,追求“语音临场感”

Sesame 团队认为,声音是人类最亲密的交流媒介,其中蕴含的丰富信息远不止字面含义。然而,现有的语音助手往往缺乏情感表达,语气平淡,难以与用户建立深层次的连接。长期使用这样的语音助手,用户不仅会感到失望,甚至会产生疲惫感。


为了解决这一问题,Sesame 提出了“语音临场感”的概念,即让语音交互具备真实感、被理解感和被重视感。CSM 模型正是朝着这一目标迈进的关键一步。Sesame 团队强调,他们不仅仅是在创造一个工具,更是在打造一个能够与用户建立信任关系的对话伙伴。

实现“语音临场感”并非易事,需要综合考虑以下几个关键要素:

  • 情商: 识别并回应用户的情绪变化。
  • 对话动态: 把握自然的对话节奏,包括语速、停顿、打断和强调等。
  • 情境感知: 根据不同的对话场景调整语气和表达方式。
  • 一致的个性: 保持 AI 助手个性的连贯性和可靠性。

 

CSM 模型:单阶段、多模态、更高效

为了实现上述目标,Sesame 团队提出了全新的对话式语音模型 CSM。该模型采用端到端的多模态学习框架,能够利用对话历史信息生成更自然、连贯的语音。

与传统的文本转语音(TTS)模型不同,CSM 模型直接对 RVQ(残差向量量化)标记进行操作。这种设计避免了传统 TTS 模型中语义标记可能造成的信息瓶颈,从而更好地捕捉语音中的细微差别。

CSM 模型的架构设计也颇具亮点。它采用了两个自回归 Transformer:

  1. 多模态主干: 处理交错的文本和音频信息,预测 RVQ 码本的第零层。
  2. 音频解码器: 为每个码本使用不同的线性头,预测剩余的 N-1 层,从而重建语音。

这种设计使得解码器可以远小于主干,从而在保证模型端到端的同时,实现低延迟的语音生成。

blank

CSM 模型推理过程

此外,为了解决训练过程中的内存瓶颈问题,Sesame 团队还提出了一种计算分摊方案。该方案只在音频帧的随机子集上训练音频解码器,从而在不影响模型性能的前提下,显著降低了内存消耗。

blank

分摊训练过程

 

实验结果:接近人类水平,但仍有差距

Sesame 团队在包含约 100 万小时英语音频的数据集上对 CSM 模型进行了训练,并采用了多种指标对模型性能进行了全面评估。

评估结果显示,CSM 模型在传统的单词错误率(WER)和说话人相似度(SIM)等指标上已经接近人类水平。

blank

单词错误率和说话人相似度测试

为了更深入地评估模型在发音和上下文理解方面的能力,Sesame 团队还引入了一组新的基于语音转录的基准测试,包括同音异形词消歧和发音一致性测试。结果表明,CSM 模型在这些方面也表现出色,且性能随着模型规模的增大而提升。

blank

同音异形词消歧和发音一致性测试

然而,在主观评估方面,CSM 模型与真实人类语音之间仍然存在一定差距。Sesame 团队使用 Expresso 数据集进行了两项比较平均意见分数(CMOS)研究。结果显示,在没有上下文的情况下,听众对 CSM 生成的语音和真实人类语音的偏好程度相当。但在提供上下文信息后,听众明显更倾向于真实人类语音。这表明,CSM 模型在捕捉对话中的细微韵律变化方面仍有提升空间。

blank

Expresso 数据集的主观评估结果

 

开源共享,未来展望

Sesame 团队秉承开源精神,计划将 CSM 模型的关键组件开源,以促进社区的共同发展。

https://github.com/SesameAILabs/csm

尽管 CSM 模型已经取得了显著进展,但仍存在一些局限性,例如目前主要支持英语,多语言能力有待提升。Sesame 团队表示,未来将继续扩大模型规模、增加数据集容量、扩展语言支持,并探索利用预训练语言模型的方法,进一步提升 CSM 模型的性能。Sesame 团队对未来的研究方向充满信心,他们认为 AI 对话的未来在于完全双工模型,即能够从数据中隐式学习对话动态的模型。

总的来说,Sesame 发布的 CSM 模型在对话式语音生成领域迈出了重要一步,为构建更自然、更具情感的 AI 语音交互提供了新的思路。虽然仍有改进空间,但 Sesame 团队的开源精神和对未来的规划,值得我们期待。

CDN1
未经允许不得转载:首席AI分享圈 » Sesame 发布对话语音模型 CSM:让 AI 语音交互更自然

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文