GPT-Realtime-2 - OpenAI 发布的商用旗舰级实时语音模型

Latest AI Resources3mos agorelease AI Sharing Circle

38.4K 00

GPT-Realtime-2是什么

GPT-Realtime-2 是 OpenAI 发布商用的旗舰级实时语音模型，也是首款具备 GPT-5 级推理能力的端到端语音代理模型，上下文窗口扩展至 128K，支持图像输入、五级可调推理强度与并行工具调用。支持非语言信号捕捉（如笑声）、语言中途切换，并能调整语气风格（如法语口音、专业语调）。在Big Bench Audio测试中推理准确率达82.8%，较旧版提升17.2个百分点。模型新增Marin和Cedar两种自然语音，价格下调20%至输入每百万Token 32美元，输出64美元，已通过Realtime API开放，支持电话SIP接入，适用于客服、教育等场景。

GPT-Realtime-2的功能特色

端到端语音推理：原生 speech-to-speech 架构，无需 STT→LLM→TTS 分段流水线，在音频层直接完成理解、推理与生成。
GPT-5 级推理能力：支持在对话过程中进行复杂多步骤推理，同时保持对话自然流畅。
128K 上下文窗口：相比前代 GPT-Realtime-1.5 的 32K 提升 4 倍，支持长会话与复杂任务流不丢上下文。
Multi-modal inputs：支持文本、音频、图像三种输入模态（图像为新增），输出为文本与音频。
五级可调推理强度::minimal / low / medium / high / xhigh，默认 low 以降低简单请求延迟，复杂任务可调用更高算力。
并行工具调用与过程播报：可同时调用多个工具，并用语音实时播报执行状态（如"正在查询您的日历"），消除工具查询期间的尴尬沉默。
开场白（Preambles）：支持配置"让我查一下""稍等片刻"等简短过渡语，让用户感知代理正在工作。
打断与纠错恢复：能自然处理用户插话、纠正或中断，并优雅恢复对话，避免直接失败或冷场。
语调可控：可根据场景调整语气——解决问题时冷静、用户沮丧时共情、任务成功时积极。
新增专属语音：Cedar 和 Marin 两个新声音随模型一同上线，仅面向 Realtime API 提供。
SIP 电话接入：支持直接通过 SIP 中继接听真实电话呼叫，无需转码，适用于呼叫中心场景。
远程 MCP 服务器支持：可在会话中配置 MCP 工具目录，由 Realtime API 直接执行调用，减少客户端往返。

GPT-Realtime-2的核心优势

GPT-5 级推理能力：首款具备 GPT-5 级推理的语音模型，可在对话中完成复杂多步骤逻辑推演，不再局限于简单问答。
128K 超长上下文：上下文窗口较上一代 32K 提升 4 倍，支持长会话、多轮复杂任务流而不丢失前文。
原生多模态输入：除文本和音频外，新增图像输入能力，可直接基于屏幕截图或照片进行语音交互与推理。
五级可调推理强度: Provided minimal until (a time) xhigh 五档，简单请求用低档位降延迟，复杂任务调用高档位保质量，灵活控制成本与性能。
并行工具调用 + 语音播报：可同时调用多个工具，并用语音实时播报执行状态（如"正在查询日历"），彻底消除工具查询期间的尴尬沉默。
端到端语音架构：原生 speech-to-speech，无需 STT→LLM→TTS 分段流水线，延迟更低、表达更自然、更懂语气与情绪。
优雅打断与纠错恢复：支持用户随时插话、纠正或中断，模型能自然承接而非直接失败或冷场。
SIP 电话直连：支持通过 SIP 中继直接接入真实电话呼叫，无需转码，天然适配呼叫中心与客服场景。
缓存输入大幅降价：重复上下文（如固定系统提示词）可享 80 倍缓存折扣，长会话 Agent 成本显著降低。
性能全面跃升：在 Big Bench Audio 等基准上较 GPT-Realtime-1.5 提升超 15%，复杂音频多挑战任务提升近 35%。

GPT-Realtime-2官网是什么

Project website：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

GPT-Realtime-2的适用人群

语音 AI 应用开发者：需要通过 Realtime API 构建端到端语音 Agent 的工程师与产品经理，利用其 128K 上下文、并行工具调用和 SIP 接入能力快速落地产品。
客服与呼叫中心运营方：依赖 SIP 电话直连功能部署智能客服，替代传统 STT-LLM-TTS 分段方案，降低延迟并提升多轮复杂问题处理能力。
医疗、法律、金融咨询从业者：需要长会话保持上下文（128K）且涉及复杂推理的专业顾问，模型可在多轮深度咨询中不丢失关键信息。
跨国企业与会议组织者：配合 GPT-Realtime-Translate 使用，满足 70+ 语言实时互译需求，适用于跨国会议、现场口译及全球化客服。
直播与内容创作者：借助 GPT-Realtime-Whisper 的流式转写能力，实现低延迟实时字幕生成，提升直播与线上课程的可及性。
车载与 IoT 设备开发者：面向免手操作场景（驾驶、智能家居），利用原生语音交互与打断恢复能力，打造更自然的语音控制体验。