OpenAI 发布新一代音频模型API，语音交互技术迎来重大升级

17.9K 00

OpenAI 近日宣布推出其新一代音频模型API，旨在赋能开发者构建更强大、更智能的语音助手。这一举措被视为语音交互技术领域的一次重大进步，预示着人机语音交互将迎来更自然、更高效的新阶段。

此次发布包含两项关键更新：更先进的语音转文本（speech-to-text）模型和更具表现力的文本转语音（text-to-speech）模型。OpenAI 声称，最新的语音转文本模型在准确性和可靠性方面树立了新的行业标杆，尤其在口音复杂、环境嘈杂以及语速多变等挑战性场景中，性能提升尤为显著。这意味着，无论是客户呼叫中心、会议记录转录等应用场景，新模型都将大幅提升转录质量和效率。

值得关注的是，OpenAI 首次允许开发者指导文本转语音模型以特定方式发声。例如，开发者可以设定模型“像一位富有同情心的客服人员那样说话”，从而为语音助手带来前所未有的个性化定制空间。这项功能为各种应用场景打开了新的大门，从更富有人情味的客户服务，到更具表现力的创意故事叙述，都将因此受益。

OpenAI 早在 2022 年就推出了首个音频模型 Whisper，并在之后持续投入于提升模型的智能性、准确性和可靠性。此次发布的新音频模型，正是其长期努力的成果。开发者现在可以通过API构建更精准的语音转文本系统，以及更富有特色、更生动的文本转语音声音。

新一代语音转文本模型：gpt-4o-transcribe 和 gpt-4o-mini-transcribe

OpenAI 推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 两款新型号，相较于之前的 Whisper 模型，它们在词错误率（Word Error Rate, WER）、语言识别和准确性方面均有显著提升。

: 单词错误率 (WER) 通过计算与参考转录本相比错误转录单词的百分比来衡量语音识别模型的准确率 - WER 越低越好，错误越少。我们最新的语音转文本模型在各个基准测试中都实现了较低的 WER，包括 FLEURS（语音通用表示的小样本学习评估） - 一种使用手动转录的音频样本涵盖 100 多种语言的多语言语音基准测试。这些结果证明了更高的转录准确率和更强大的语言覆盖范围。如此处所示，我们的模型在所有语言评估中始终优于 Whisper v2 和 Whisper v3。

gpt-4o-transcribe 在多项权威评测基准上，均展现出优于 Whisper 模型的词错误率表现。词错误率是衡量语音识别模型准确度的关键指标，数值越低代表错误越少。OpenAI 表示，这些进步源于在强化学习方面的针对性创新，以及使用多样化、高质量音频数据集进行的大规模中期训练。

因此，新的语音转文本模型能够更好地捕捉语音的细微差别，减少误识别，并提高转录的可靠性，尤其是在处理口音、噪音环境和不同语速等复杂情况时。目前，这些模型已在语音转文本 API 中开放使用。

为了更直观地展示性能提升，OpenAI 引用了 FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）基准测试的结果。FLEURS 是一个多语言语音基准，覆盖 100 多种语言，使用人工转录的音频样本。测试结果表明，OpenAI 的新模型在跨语言评估中，词错误率均低于 Whisper v2 和 Whisper v3，显示出更强的转录准确性和更广泛的语言覆盖能力。

新一代文本转语音模型：gpt-4o-mini-tts

除了语音转文本模型，OpenAI 还推出了新的 gpt-4o-mini-tts 文本转语音模型，该模型最大的亮点在于其更强的可控性。开发者不仅可以控制模型说什么，还可以指示模型如何说。这种能力为用户体验带来了更大的定制空间，应用场景涵盖客户服务、创意内容等多个领域。该模型同样已在文本转语音 API 中上线。需要注意的是，这些文本转语音模型目前仅限于预设的合成声音，OpenAI 会对其进行监控，以确保其与合成预设保持一致。

在这里快速体验 gpt-4o-mini-tts

https://www.openai.fm/

模型背后的技术创新

OpenAI 透露，新音频模型构建于 GPT-4o 和 GPT-4o-mini 架构之上，并使用了专门面向音频的数据集进行大规模预训练，这对于优化模型性能至关重要。这种有针对性的方法，使模型能够更深入地理解语音的细微之处，并在各种音频相关任务中表现出色。

此外，OpenAI 还改进了知识提炼技术，实现了从大型音频模型到小型高效模型的知识转移。通过利用先进的自我博弈方法，其提炼数据集有效地捕捉了真实的对话动态，复刻了真实的用户与助手交互场景。这有助于小型模型提供出色的对话质量和响应速度。

在语音转文本模型方面，OpenAI 采用了强化学习（RL）主导的范式，将转录准确率提升到了新的水平。这种方法显著提高了精度，并减少了“幻觉”（hallucination）现象，使得其语音转文本解决方案在复杂的语音识别场景中更具竞争力。

这些技术进步代表了音频建模领域的最新进展，OpenAI 将创新方法与实际改进相结合，旨在提升语音应用的性能。

API 开放与未来展望

目前，所有开发者均可使用这些新的音频模型。对于已经使用文本模型构建对话体验的开发者而言，集成语音转文本和文本转语音模型是构建语音助手的最便捷途径。OpenAI 还发布了与 Agents SDK 的集成，以简化开发流程。对于希望构建低延迟语音到语音体验的开发者，OpenAI 建议使用 Realtime API 中的语音到语音模型。

展望未来，OpenAI 计划继续加大对音频模型智能性和准确性的投入，并探索允许开发者引入自定义声音的方法，以构建更个性化的体验，同时确保符合其安全标准。此外，OpenAI 也在积极与政策制定者、研究人员、开发者和创意人士就合成声音可能带来的挑战和机遇进行对话。OpenAI 对开发者使用这些增强的音频功能构建创新应用充满期待，并表示将继续投资包括视频在内的其他模态，以支持开发者构建多模态智能体体验。

OpenAI 此番发布的新一代音频模型API，无疑为语音交互技术的发展注入了新的活力。随着技术的不断进步和应用场景的日益丰富，我们有理由相信，未来的数字世界将变得更加“能听会说”，人机交互也将更加自然流畅。