GPT-Realtime-2 - OpenAI 发布的商用旗舰级实时语音模型
GPT-Realtime-2是什么
GPT-Realtime-2 是 OpenAI 发布商用的旗舰级实时语音模型,也是首款具备 GPT-5 级推理能力的端到端语音代理模型,上下文窗口扩展至 128K,支持图像输入、五级可调推理强度与并行工具调用。支持非语言信号捕捉(如笑声)、语言中途切换,并能调整语气风格(如法语口音、专业语调)。在Big Bench Audio测试中推理准确率达82.8%,较旧版提升17.2个百分点。模型新增Marin和Cedar两种自然语音,价格下调20%至输入每百万Token 32美元,输出64美元,已通过Realtime API开放,支持电话SIP接入,适用于客服、教育等场景。

GPT-Realtime-2的功能特色
- 端到端语音推理:原生 speech-to-speech 架构,无需 STT→LLM→TTS 分段流水线,在音频层直接完成理解、推理与生成。
- GPT-5 级推理能力:支持在对话过程中进行复杂多步骤推理,同时保持对话自然流畅。
- 128K 上下文窗口:相比前代 GPT-Realtime-1.5 的 32K 提升 4 倍,支持长会话与复杂任务流不丢上下文。
- Multi-modal inputs:支持文本、音频、图像三种输入模态(图像为新增),输出为文本与音频。
- 五级可调推理强度::
minimal/low/medium/high/xhigh,默认low以降低简单请求延迟,复杂任务可调用更高算力。 - 并行工具调用与过程播报:可同时调用多个工具,并用语音实时播报执行状态(如"正在查询您的日历"),消除工具查询期间的尴尬沉默。
- 开场白(Preambles):支持配置"让我查一下""稍等片刻"等简短过渡语,让用户感知代理正在工作。
- 打断与纠错恢复:能自然处理用户插话、纠正或中断,并优雅恢复对话,避免直接失败或冷场。
- 语调可控:可根据场景调整语气——解决问题时冷静、用户沮丧时共情、任务成功时积极。
- 新增专属语音:Cedar 和 Marin 两个新声音随模型一同上线,仅面向 Realtime API 提供。
- SIP 电话接入:支持直接通过 SIP 中继接听真实电话呼叫,无需转码,适用于呼叫中心场景。
- 远程 MCP 服务器支持:可在会话中配置 MCP 工具目录,由 Realtime API 直接执行调用,减少客户端往返。
GPT-Realtime-2的核心优势
- GPT-5 级推理能力:首款具备 GPT-5 级推理的语音模型,可在对话中完成复杂多步骤逻辑推演,不再局限于简单问答。
- 128K 超长上下文:上下文窗口较上一代 32K 提升 4 倍,支持长会话、多轮复杂任务流而不丢失前文。
- 原生多模态输入:除文本和音频外,新增图像输入能力,可直接基于屏幕截图或照片进行语音交互与推理。
- 五级可调推理强度: Provided
minimaluntil (a time)xhigh五档,简单请求用低档位降延迟,复杂任务调用高档位保质量,灵活控制成本与性能。 - 并行工具调用 + 语音播报:可同时调用多个工具,并用语音实时播报执行状态(如"正在查询日历"),彻底消除工具查询期间的尴尬沉默。
- 端到端语音架构:原生 speech-to-speech,无需 STT→LLM→TTS 分段流水线,延迟更低、表达更自然、更懂语气与情绪。
- 优雅打断与纠错恢复:支持用户随时插话、纠正或中断,模型能自然承接而非直接失败或冷场。
- SIP 电话直连:支持通过 SIP 中继直接接入真实电话呼叫,无需转码,天然适配呼叫中心与客服场景。
- 缓存输入大幅降价:重复上下文(如固定系统提示词)可享 80 倍缓存折扣,长会话 Agent 成本显著降低。
- 性能全面跃升:在 Big Bench Audio 等基准上较 GPT-Realtime-1.5 提升超 15%,复杂音频多挑战任务提升近 35%。
GPT-Realtime-2官网是什么
- Project website:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
GPT-Realtime-2的适用人群
- 语音 AI 应用开发者:需要通过 Realtime API 构建端到端语音 Agent 的工程师与产品经理,利用其 128K 上下文、并行工具调用和 SIP 接入能力快速落地产品。
- 客服与呼叫中心运营方:依赖 SIP 电话直连功能部署智能客服,替代传统 STT-LLM-TTS 分段方案,降低延迟并提升多轮复杂问题处理能力。
- 医疗、法律、金融咨询从业者:需要长会话保持上下文(128K)且涉及复杂推理的专业顾问,模型可在多轮深度咨询中不丢失关键信息。
- 跨国企业与会议组织者:配合 GPT-Realtime-Translate 使用,满足 70+ 语言实时互译需求,适用于跨国会议、现场口译及全球化客服。
- 直播与内容创作者:借助 GPT-Realtime-Whisper 的流式转写能力,实现低延迟实时字幕生成,提升直播与线上课程的可及性。
- 车载与 IoT 设备开发者:面向免手操作场景(驾驶、智能家居),利用原生语音交互与打断恢复能力,打造更自然的语音控制体验。
GPT-Realtime-2的常见问题
Q:GPT-Realtime-2 与前代最大的区别是什么?
A:核心差异在于引入 GPT-5 级推理能力、128K 上下文、图像输入、五级可调推理强度,以及并行工具调用时的语音播报,从"快但浅"的语音交互升级为"边推理边对话"的语音 Agent。
A:核心差异在于引入 GPT-5 级推理能力、128K 上下文、图像输入、五级可调推理强度,以及并行工具调用时的语音播报,从"快但浅"的语音交互升级为"边推理边对话"的语音 Agent。
Q:是否支持中文?
A:支持中文语音交互。翻译模型 GPT-Realtime-Translate 支持 70+ 输入语言(含中文),输出语言目前为 13 种。
A:支持中文语音交互。翻译模型 GPT-Realtime-Translate 支持 70+ 输入语言(含中文),输出语言目前为 13 种。
Q:是否可以在 ChatGPT 客户端直接使用?
A:截至 2026 年 5 月,该模型仅通过 OpenAI Realtime API 向开发者开放,未直接集成到 ChatGPT 消费者界面。
A:截至 2026 年 5 月,该模型仅通过 OpenAI Realtime API 向开发者开放,未直接集成到 ChatGPT 消费者界面。
© Copyright notes
Article copyright AI Sharing Circle All, please do not reproduce without permission.
Related posts
No comments...




