OpenAI 推出 DeepResearch ，利用o3模型进行深度研究的智能体

2.8K 00

您是否厌倦了在海量信息中苦苦搜寻，却依然难以找到所需答案？您是否渴望拥有一个能够像专业分析师一样为您进行深入研究的智能助手？现在，这一切都将成为现实！OpenAI 隆重推出 ChatGPT 的全新功能——深度研究 (Deep Research)！它将彻底改变您获取信息的方式，让您在短短几十分钟内完成原本需要数小时才能完成的复杂研究任务。本文将带您深入了解深度研究的强大功能、应用场景、工作原理以及未来发展方向，一起见证 AI 如何赋能知识工作，开启智能研究的新时代！

这是一种使用推理来综合大量在线信息并为您完成多步骤研究任务的智能体，类似于 Perplexity 和 Gemini 的同名功能，OpenAI 最新发布的“深度研究” 利用其强大的 o3 模型，通过网络搜索，对海量信息进行整理和分析，并最终生成一份详尽的、带有引用的专业报告。该功能一经推出便引发了广泛关注，并被誉为“超级强大的” AI 助手，预示着 AI 辅助研究新时代的到来。

今天面向 Pro 用户开放，接下来将面向 Plus 和 Team 用户开放。

一句话概括：“深度研究” 可以自主进行多步骤网络调查，在 5-30 分钟内完成通常需要人类研究员数小时才能完成的复杂研究任务，并将结果以高质量报告的形式呈现给用户。

参考阅读：谷歌推出的 Deep Research、Open Deep Research：生成基于网络搜索内容的AI研究报告、STORM：基于Topic搜索网络数据，生成带引用的论文、长文报告

“深度研究” 到底有多厉害？让我们一探究竟：

能力强大，效率惊人： 告别熬夜搜资料的日子！“深度研究” 可在 5-30 分钟内完成传统上需要数小时的复杂研究，将研究效率提升至全新高度，并可根据需要深入挖掘，提供专家级别的分析。
结果可靠，有据可查： 不再担心信息来源不明！所有结论均附带详细的引文，可精确到原始网页或 PDF 的相关段落，方便用户追溯和验证信息的准确性，让您的研究成果更具说服力。
应用广泛，灵活易用： 无论您是需要进行竞争分析、市场调研，还是进行产品选购、学术研究，“深度研究” 都能成为您的得力助手。用户只需在 ChatGPT 界面选择“深度研究”并输入查询，即可启动研究。支持上传文件 (如 PDF) 以提供更具体的上下文，并可在侧边栏实时查看研究进度和引用的来源。
技术先进，表现卓越： 基于端到端强化学习，“深度研究” 能够执行多步骤的浏览和推理任务。支持网站内容读取、数据处理、图表生成，并可引用来源文本作为论据支撑。在被称为“人类最后的考试” (Humanity's Last Exam, HLE) 的高难度基准测试中，“深度研究” 取得了 26.6% 的高分，远超此前的 o3-mini (13%) 和 o1 (9%)，展现了其强大的信息检索和整合能力，以及接近人类的研究行为。
逐步开放，未来可期： 目前已向 Pro 用户开放 (每月 100 次搜索额度)，并将于一个月内扩展至 Plus 用户 (每月 10 次搜索额度)，团队版和企业版也将陆续开放。未来还将支持移动/桌面端应用，并计划与更多数据源 (包括订阅和内部数据源) 连接，以实现更强大的个性化功能。

这些细节同样值得关注：

工具调用越多，准确率越高： 图表显示，随着工具调用次数 (Max Tool Calls) 的增加，“深度研究” 在 HLE 测试中的通过率也随之提高，这表明其智能程度和工具利用能力的正相关关系。
幻觉问题仍需改进： 尽管“深度研究” 的表现令人惊叹，但仍存在产生幻觉和错误推理的可能性，这也是 OpenAI 后续优化的重点方向。
结合 Operator，潜力无限： OpenAI 未来计划将深度在线研究与现实世界操作 (Operator) 相结合，实现更强大的智能体功能，让人充满期待！

DeepResearch 官方评测全文

今天，我们在 ChatGPT 中推出了深度研究，这是一种新的代理功能，可以针对复杂任务在互联网上进行多步骤研究。它可以在数十分钟内完成人类需要数小时才能完成的工作。

深度研究是 OpenAI 的下一个智能体，可以独立为您工作——您给它一个提示，ChatGPT 将查找、分析和综合数百个在线资源，以创建一份研究分析师水平的综合报告。它由即将推出的 OpenAI o3 模型的某个版本提供支持，该模型针对网络浏览和数据分析进行了优化，它利用推理来搜索、解释和分析互联网上的海量文本、图像和 PDF，并根据遇到的信息进行必要的调整。

综合知识的能力是创造新知识的先决条件。出于这个原因，深度研究标志着我们朝着开发 AGI 的更广泛目标迈出了重要一步，我们长期以来一直设想 AGI 能够产生新的科学研究。

我们构建深度研究的原因

深度研究专为在金融、科学、政策和工程等领域从事密集知识工作且需要全面、精确和可靠研究的人员而构建。对于那些希望获得通常需要仔细研究的购买（如汽车、电器和家具）的超个性化建议的精明购物者来说，它同样有用。每个输出都有完整的文档记录，带有清晰的引文和对其思路的总结，便于参考和验证信息。它在查找需要浏览大量网站的利基、非直观信息方面特别有效。深度研究让您只需一个查询即可卸载和加快复杂、耗时的网络研究，从而释放宝贵的时间。

深度研究独立地发现、推理和整合来自整个网络的见解。为了实现这一点，它使用与 OpenAI o1（我们的第一个推理模型）相同的强化学习方法，在需要浏览器和 Python 工具使用的现实世界任务上进行了训练。虽然 o1 在编码、数学和其他技术领域展示了令人印象深刻的能力，但许多现实世界的挑战需要广泛的背景和来自不同在线资源的信息收集。深度研究建立在这些推理能力的基础上，以弥合这一差距，使其能够处理人们在工作和日常生活中面临的各种问题。

如何使用深度研究

在 ChatGPT 中，在消息编辑器中选择“深度研究”并输入您的查询。告诉 ChatGPT 您需要什么——无论是对流媒体平台的竞争分析还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格来为您的问题添加上下文。一旦它开始运行，就会出现一个侧边栏，其中包含所采取步骤和所用来源的摘要。

深度研究可能需要 5 到 30 分钟才能完成其工作，需要时间深入研究网络。同时，您可以离开或处理其他任务——研究完成后您会收到通知。最终输出以报告的形式出现在聊天中——在接下来的几周内，我们还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出，以提供额外的清晰度和上下文。

与深度研究相比，GPT-4o 非常适合实时、多模态对话。对于深度和细节至关重要的多方面、特定领域的查询，深度研究进行广泛探索和引用每个声明的能力是快速摘要和有据可查、经过验证的答案（可用作工作成果）之间的区别。

OpenAI 推出 DeepResearch ，利用o3模型进行深度研究的智能体

深度研究以高度详细的方式响应提示，提供前 10 个发达国家和前 10 个发展中国家的并列国家/地区数据，以便于参考和比较。它利用这些信息提供详尽的、明智且实用的市场进入建议。参见官方示例：https://openai.com/index/introducing-deep-research/

工作原理

深度研究是在各种领域的硬浏览和推理任务上使用端到端强化学习进行训练的。通过这种训练，它学会了计划和执行多步骤轨迹来找到所需的数据，并在必要时回溯和对实时信息做出反应。该模型还能够浏览用户上传的文件，使用 python 工具绘制和迭代图形，在其响应中嵌入生成的图形和来自网站的图像，并引用其来源的特定句子或段落。作为此训练的结果，它在许多专注于现实世界问题的公开评估中达到了新的高度。

Humanity's Last Exam

在 Humanity’s Last Exam⁠(opens in a new window)（最近发布的一项评估，测试 AI 在专家级问题上的广泛主题）上，支持深度研究的模型以 26.6% 的准确率获得了新的高分。该测试包含 3,000 多个选择题和简答题，涵盖 100 多个主题，从语言学到火箭科学，从经典到生态学。与 OpenAI o1 相比，最大的进步出现在化学、人文社会科学和数学方面。支持深度研究的模型展示了一种类似人类的方法，在必要时有效地寻找专业信息。

模型	准确率 (%)
GPT-4o	3.3
Grok-2	3.8
Claude 3.5 Sonnet	4.3
Gemini Thinking	6.2
OpenAI o1	9.1
DeepSeek-R1*	9.4
OpenAI o3-mini (medium)*	10.5
OpenAI o3-mini (high)*	13.0
OpenAI deep research**	26.6

模型不是多模态的，在仅文本子集上进行评估。
使用浏览 + python 工具

GAIA

在 GAIA⁠(opens in a new window) （一个评估 AI 在现实世界问题上的公开基准）上，支持深度研究的模型达到了新的最先进水平 (SOTA)，在外部排行榜⁠(opens in a new window) 中名列前茅。包含三个难度级别的问题，成功完成这些任务需要包括推理、多模态流畅性、网络浏览和工具使用熟练度在内的能力。

GAIA 任务示例

参见官方示例：https://openai.com/index/introducing-deep-research/

专家级任务

在一项针对一系列领域专家级任务的内部评估中，深度研究被领域专家评为已自动执行数小时的困难手动调查。

通过率与最大工具调用次数

模型浏览和思考浏览内容的次数越多，它的表现就越好，这就是为什么给它时间思考很重要。

专家级任务示例

参见官方示例：https://openai.com/index/introducing-deep-research/

任务的估计经济价值与通过率的相关性比与人类花费的小时数的相关性更高——模型认为困难的事情与人类认为耗时的事情不同。

局限性

深度研究解锁了重要的新功能，但它仍处于早期阶段并且存在局限性。根据内部评估，它有时会在响应中产生幻觉事实或做出不正确的推断，尽管比现有的 ChatGPT 模型低得多。它可能难以区分权威信息和谣言，并且目前在置信度校准方面表现出弱点，通常无法准确传达不确定性。在发布时，报告和引文中可能存在轻微的格式错误，并且任务可能需要更长的时间才能启动。我们预计所有这些问题都会随着使用量的增加和时间的推移而迅速得到改善。

访问

ChatGPT 中的深度研究目前需要非常高的计算能力。研究查询所需的时间越长，所需的推理计算就越多。我们今天将从针对 Pro 用户优化的版本开始，每月最多 100 个查询。Plus 和 Team 用户将接下来获得访问权限，然后是 Enterprise 用户。我们仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

当我们发布由仍然提供高质量结果的较小模型提供支持的更快、更具成本效益的深度研究版本时，所有付费用户很快将获得更高的速率限制。

在接下来的几周和几个月里，我们将致力于技术基础设施，密切监控当前版本，并进行更严格的测试。这符合我们迭代部署的原则。如果所有安全检查继续满足我们的发布标准，我们预计将在大约一个月内向 Plus 用户发布深度研究。