Sesame 发布对话语音模型 CSM：让 AI 语音交互更自然

54.9K 00

近日，由 Brendan Iribe、Ankit Kumar 以及 Sesame 团队发表的一篇博文，介绍了该公司在对话式语音生成领域的最新研究成果——对话式语音模型（Conversational Speech Model，简称 CSM）。该模型致力于解决当前语音助手在交互中缺乏情感、不够自然的问题，让 AI 语音交互更接近人类水平。

跨越“恐怖谷”，追求“语音临场感”

Sesame 团队认为，声音是人类最亲密的交流媒介，其中蕴含的丰富信息远不止字面含义。然而，现有的语音助手往往缺乏情感表达，语气平淡，难以与用户建立深层次的连接。长期使用这样的语音助手，用户不仅会感到失望，甚至会产生疲惫感。

为了解决这一问题，Sesame 提出了“语音临场感”的概念，即让语音交互具备真实感、被理解感和被重视感。CSM 模型正是朝着这一目标迈进的关键一步。Sesame 团队强调，他们不仅仅是在创造一个工具，更是在打造一个能够与用户建立信任关系的对话伙伴。

实现“语音临场感”并非易事，需要综合考虑以下几个关键要素：

情商： 识别并回应用户的情绪变化。
对话动态： 把握自然的对话节奏，包括语速、停顿、打断和强调等。
情境感知： 根据不同的对话场景调整语气和表达方式。
一致的个性： 保持 AI 助手个性的连贯性和可靠性。

CSM 模型：单阶段、多模态、更高效

为了实现上述目标，Sesame 团队提出了全新的对话式语音模型 CSM。该模型采用端到端的多模态学习框架，能够利用对话历史信息生成更自然、连贯的语音。

与传统的文本转语音（TTS）模型不同，CSM 模型直接对 RVQ（残差向量量化）标记进行操作。这种设计避免了传统 TTS 模型中语义标记可能造成的信息瓶颈，从而更好地捕捉语音中的细微差别。

CSM 模型的架构设计也颇具亮点。它采用了两个自回归 Transformer：

多模态主干： 处理交错的文本和音频信息，预测 RVQ 码本的第零层。
音频解码器： 为每个码本使用不同的线性头，预测剩余的 N-1 层，从而重建语音。

这种设计使得解码器可以远小于主干，从而在保证模型端到端的同时，实现低延迟的语音生成。

CSM 模型推理过程

此外，为了解决训练过程中的内存瓶颈问题，Sesame 团队还提出了一种计算分摊方案。该方案只在音频帧的随机子集上训练音频解码器，从而在不影响模型性能的前提下，显著降低了内存消耗。

分摊训练过程

实验结果：接近人类水平，但仍有差距

Sesame 团队在包含约 100 万小时英语音频的数据集上对 CSM 模型进行了训练，并采用了多种指标对模型性能进行了全面评估。

评估结果显示，CSM 模型在传统的单词错误率（WER）和说话人相似度（SIM）等指标上已经接近人类水平。

单词错误率和说话人相似度测试

为了更深入地评估模型在发音和上下文理解方面的能力，Sesame 团队还引入了一组新的基于语音转录的基准测试，包括同音异形词消歧和发音一致性测试。结果表明，CSM 模型在这些方面也表现出色，且性能随着模型规模的增大而提升。

同音异形词消歧和发音一致性测试

然而，在主观评估方面，CSM 模型与真实人类语音之间仍然存在一定差距。Sesame 团队使用 Expresso 数据集进行了两项比较平均意见分数（CMOS）研究。结果显示，在没有上下文的情况下，听众对 CSM 生成的语音和真实人类语音的偏好程度相当。但在提供上下文信息后，听众明显更倾向于真实人类语音。这表明，CSM 模型在捕捉对话中的细微韵律变化方面仍有提升空间。

Expresso 数据集的主观评估结果

开源共享，未来展望

Sesame 团队秉承开源精神，计划将 CSM 模型的关键组件开源，以促进社区的共同发展。

https://github.com/SesameAILabs/csm

尽管 CSM 模型已经取得了显著进展，但仍存在一些局限性，例如目前主要支持英语，多语言能力有待提升。Sesame 团队表示，未来将继续扩大模型规模、增加数据集容量、扩展语言支持，并探索利用预训练语言模型的方法，进一步提升 CSM 模型的性能。Sesame 团队对未来的研究方向充满信心，他们认为 AI 对话的未来在于完全双工模型，即能够从数据中隐式学习对话动态的模型。

总的来说，Sesame 发布的 CSM 模型在对话式语音生成领域迈出了重要一步，为构建更自然、更具情感的 AI 语音交互提供了新的思路。虽然仍有改进空间，但 Sesame 团队的开源精神和对未来的规划，值得我们期待。