OpenAI 的 Deep Research：端到端训练如何引领 AI Agent 的未来

56.1K 00

OpenAI 的 Isa Fulford 和 Josh Tobin 近期在 Training Data 播客节目中，深入探讨了公司最新的 AI Agent 产品 Deep Research。他们指出，Deep Research 代表了 AI 研究能力的一次重大突破，它采用端到端训练模型，而非传统的固定操作流程。

OpenAI 的 Deep Research：端到端训练如何引领 AI Agent 的未来

两位产品负责人详细解释了高质量训练数据和 OpenAI o3 模型 (OpenAI 最先进的推理模型) 的强大推理能力如何成就 Deep Research 灵活的研究策略。同时，他们也分享了 Sam Altman 对 Deep Research 的愿景，即期望它能承担起相当比例的知识型任务。此外，为了构建产品的透明度和用户信任，Deep Research 在设计上特别加入了引用来源和需求澄清流程等关键功能。通过将过去需要数小时的工作压缩至几分钟，Deep Research 正在彻底改变众多商业和个人应用场景的可能性。

具有类似观点的文章参考阅读：未来已来：深度解读 “模型即产品” 时代

原文地址：https://www.sequoiacap.com/podcast/training-data-deep-research/

内容概要

OpenAI 的 Isa Fulford 和 Josh Tobin 在播客中详细介绍了 Deep Research，这款 AI Agent 能够在 5 到 30 分钟内完成全面的在线研究，它通过搜索多个网站，并生成包含详细引用的综合报告。本期节目深入探讨了 OpenAI 如何构建高效的 AI Agent，并预告了 Deep Research 在商业和个人应用领域的未来发展方向。

端到端训练优于人工编排： Deep Research 并非采用常见的 Agent 构建方法，即构建一个包含语言模型节点的固定操作图，而是直接在复杂的浏览任务上进行端到端训练。这种方法使得模型能够发展出灵活的信息收集和整合策略，而这些策略如果通过人工脚本编写则难以实现。
数据质量是核心优势：高质量的训练数据是 Deep Research 开发成功的关键。 OpenAI 团队利用 o3 模型 (OpenAI 最先进的推理模型) 强大的推理能力，并在精心策划的复杂浏览任务示例上对模型进行了微调，这种结合催生了极具创造力的成果。
Agent 擅长定义明确但灵活的任务： Deep Research 证明，AI Agent 可以通过训练来处理那些无法用僵化规则捕捉的特定工作流程。该模型能够根据初步的研究结果调整其研究策略，使其成为市场调研、科学文献综述和消费者研究等任务的理想选择，这些任务都受益于全面和探索性的信息收集。
透明度和控制力建立信任： Deep Research 通过清晰的引用、预先澄清需求以及可视化思维链推理过程来建立用户信任。这种透明度，加上模型从多来源整合信息的能力，使用户能够在受益于全面研究的同时，验证其结论，而这些研究是用户自己难以实际完成的。
时间压缩创造全新可能： Deep Research 将过去需要数小时的研究任务缩减到几分钟，这不仅仅是节省时间，更从根本上改变了知识工作者的工作模式。用户现在可以为以前没有时间进行的决策进行深入研究，例如分析潜在投资或策划特殊活动。

播客文字稿

Josh Tobin: 我一次又一次看到人们在这个领域吸取一个教训，那就是，我们认为我们自己编写程序可以比模型做得更智能。但实际上，通常模型——随着领域的进步，模型会找到比人类更好的解决方案。

而且，机器学习的首要教训可能是，你优化什么就得到什么。因此，如果你能够建立一个系统，使你可以直接针对你想要的结果进行优化，那么结果将比你尝试将未针对你尝试执行的任务进行端到端优化的模型拼接在一起要好得多。因此，我的长期指导是，我认为在模型之上进行强化学习微调可能是构建最强大的 Agent 的关键部分。

Sonya Huang: 我们很高兴欢迎 OpenAI Deep Research 产品的负责人 Isa Fulford 和 Josh Tobin。 Deep Research 在三周前发布，并迅速成为热门产品，被许多科技界知名人士，如 Collison 兄弟，用于各种用途，从行业分析到医学研究，甚至生日派对策划。

Deep Research 通过端到端强化学习在复杂的浏览和推理任务上进行训练，是 OpenAI Agent 产品系列中继 Operator 之后的第二款产品。我们与 Isa 和 Josh 讨论了 Deep Research 的各种话题，从其使用案例到其底层技术，再到我们对 OpenAI 未来 Agent 产品的期望。

Isa 和 Josh，欢迎来到节目。

Lauren Reeder: 谢谢你们的到来。非常感谢你们加入我们。

Josh Tobin: 很高兴来到这里。

Isa Fulford: 感谢邀请。

什么是 Deep Research？

Lauren Reeder: 那么，也许我们从什么是 Deep Research 开始吧？请给我们讲讲它的起源以及这款产品的功能。

Isa Fulford: Deep Research 是一款能够搜索大量在线网站的 Agent，它可以生成非常全面的报告。它能够完成人类需要花费数小时才能完成的任务。而且它内置于 ChatGPT 中，只需 5 到 30 分钟即可给你答复。因此，与常规 ChatGPT 的回复相比，它能够进行更深入的研究，并以更详细和具体的来源来回答你的问题。

它是我们发布的首批 Agent 之一。我们之前还发布了 Operator。因此，Deep Research 是第二款 Agent，未来我们将发布更多。

Sonya Huang: Deep Research 背后的起源故事是什么？你们是什么时候决定做这个的？灵感来自哪里？有多少人参与开发？将其实现经历了哪些过程？

Josh Tobin: 好问题。这在我加入 OpenAI 之前。

Isa Fulford: 哦，是的。[笑声] 我想大概在一年前左右，我们内部在使用这种新的推理模式和训练模型在响应之前进行思考方面看到了很多成功。当时我们主要关注数学和科学领域，但我认为这种新的推理模型机制解锁的另一件事是执行更长时间跨度任务的能力，这些任务涉及到 Agent 的能力。

我们认为很多人都需要执行需要大量在线研究或大量外部背景信息的任务，这涉及到大量的推理和区分信息来源。而且你必须非常有创造力才能完成这些类型的事情。我认为我们最终拥有了模型，或者说训练模型的方法，使我们能够解决其中一些任务。因此，我们决定尝试开始训练模型来执行浏览任务。使用与我们训练推理模型相同的方法，但应用于更真实世界的任务。

Sonya Huang: 这是你的想法吗？ Josh，你是如何参与进来的？

Isa Fulford: 是的，最初是我和 Yash Patil，他是 OpenAI 的一位同事，他正在从事一个类似的项目，这个项目也将在某个时候发布，我们对此感到非常兴奋。我们构建了一个最初的演示版本。还有 Thomas Dimson，他是一位非常出色的工程师，他会深入研究任何事物并完成大量工作。所以这个过程非常有趣。

Josh Tobin: 是的，我加入的时间比较晚。大概在六个月前，我从我自己的创业公司重新加入 OpenAI。我在早期就在 OpenAI 工作过，当我重新加入时，我一直在关注各种项目，并且对我们的一些 Agent 项目非常感兴趣，包括这个项目，然后我就参与进来了。

Lauren Reeder: 太棒了。请详细说说你们是为哪些用户群体构建的 Deep Research。

Josh Tobin: 是的，它实际上是为任何在日常工作或生活中从事知识工作的人设计的。我们看到很多用户将其用于工作，例如，在工作中进行研究，以了解市场、公司、房地产……

Isa Fulford: 大量的科学研究、医学研究。我认为我们也看到了很多医学方面的例子。

Josh Tobin: 是的。我们真正感到兴奋的一件事是，这种风格就像，我只需要花很多时间去做某事，我必须进行大量的网络搜索并整理大量信息，这不仅限于工作，而且对于购物和旅行也很有用。

Isa Fulford: 因此，我们对 Plus 版本的发布感到兴奋，这样更多人将能够试用 Deep Research，也许我们会看到一些新的使用案例。

Lauren Reeder: 太好了。这绝对是我在过去几周内使用最多的产品之一。它非常出色。

Isa Fulford: 听到你这么说我太高兴了。

Josh Tobin: 你用它来工作吗？

Lauren Reeder: 当然是工作。也有娱乐。

Sonya Huang: 你用它来做什么？

Lauren Reeder: 哦，对我来说吗？天哪。我当时正在考虑买一辆新车，并且想知道这款车的下一代车型什么时候发布。网上有很多推测性的博客文章，例如，来自制造商的各种暗示，所以我问 Deep Research，你能否分析一下关于这款车的所有传言，以及这家汽车制造商之前的所有实际操作。它整理了一份非常出色的报告，告诉我可能要等几个月，但应该会在今年，在接下来的几个月内发布。

Josh Tobin: 是的。其中一件非常酷的事情是，它不仅可以广泛地收集关于某个来源的所有信息，而且还非常擅长找到非常隐晦的、奇怪的网络信息。比如，如果你想知道一些非常具体的东西，而这些东西可能不会出现在搜索结果的第一页，它也很擅长处理这类事情。这很酷。

令人惊喜的使用案例

Lauren Reeder: 你们见过哪些令人惊喜的使用案例？

Josh Tobin: 哦。

Isa Fulford: 我认为最让我惊讶的是，有很多人用它来编写代码。

Josh Tobin: 是的。

Isa Fulford: 这实际上不是我考虑过的使用案例，但我看到很多人在 Twitter 和各种我们可以获得反馈的渠道上说，他们用它来编写代码和搜索代码，还用它来查找关于某个软件包的最新文档，并帮助他们编写脚本或其他东西。

Josh Tobin: 是的，我有点不好意思，我们居然没有想到这是一个使用案例。

Isa Fulford: [笑声] 是的。

Josh Tobin: 对于 ChatGPT 用户来说，这似乎是很明显的，但我知道，它能如此出色地完成这项任务真是令人印象深刻。

Sonya Huang: 你们认为商业用途与个人用途之间的平衡会如何随着时间推移而演变？比如，你提到了即将发布的 Plus 版本。在一年或两年后，你们认为这主要会是一款商业工具还是主要是一款消费者工具？

Isa Fulford: 我希望两者都是。我认为它是一种非常通用的能力，而且我认为这是我们在工作和个人生活中都会做的事情。所以我希望两者兼顾。

Josh Tobin: 是的，我对两者都很期待。我认为它的魔力在于，它真的为人们节省了很多时间。如果有什么事情可能需要你花费数小时——在某些情况下，我们听说甚至需要几天，人们只需将其输入 Deep Research，就可以获得他们自己原本需要花费大量时间才能得出的 90% 的结果。所以，是的，我倾向于认为商业领域的这类任务比个人领域更多。但我的意思是，我确信它将成为人们生活的一部分，无论是在哪个领域。

Lauren Reeder: 它真的已经成为我使用 ChatGPT 的主要方式。我总是选择 Deep Research 而不是普通模式。

Isa Fulford: 真的吗？

Lauren Reeder: [笑声]

Josh Tobin: 是的，没错。你真有耐心。

Lauren Reeder: 显然是这样。

Lauren Reeder: 那么，你们看到了哪些消费者使用案例？哪些方面让你们感到兴奋？

Isa Fulford: 我认为很多都与购物、旅行建议有关。我个人也经常使用这个模型。我已经用它好几个月来做这些事情了。 Deep Research 发布时我们正好在日本，它在帮我找到符合特定要求的餐厅以及我可能找不到的东西方面非常有用。

Josh Tobin: 是的。我发现，当你需要购买一些昂贵的东西，或者你正在计划一次特别的旅行，或者你想花很多时间来考虑时，它就很有用。对我来说，我可能会花上好几个小时，试图阅读互联网上关于我感兴趣购买的这款产品的所有信息，比如仔细查阅所有的评论和论坛之类的。而 Deep Research 可以非常快速地整理出类似的信息。因此，它对于这类事情真的很有用。

Isa Fulford: 该模型也非常擅长理解指令。因此，如果你的查询包含许多不同的部分或许多不同的问题，比如你想要了解关于产品的信息，但你也想将其与所有其他产品进行比较，而且你还想了解来自 Reddit 的评论信息等等，你可以提出很多不同的要求，它都会为你完成所有这些。

Josh Tobin: 是的。另一个技巧是，直接要求它以表格形式呈现。它通常也会这样做，但有一个包含大量引用和诸如此类的表格，其中列出了你想要研究的所有类别的信息，这真的很有帮助。

Isa Fulford: 是的。还有一些功能有望在未来加入到产品中，但底层模型能够嵌入图像，因此它可以找到产品的图像。而且它还能够创建图表，然后将这些图表嵌入到其回复中，但这还不是消费者使用案例。希望这些功能也能尽快在 ChatGPT 中实现。

Sonya Huang: 极客消费者使用案例。[笑声]

Josh Tobin: 是的，说到极客消费者使用案例，个性化教育也是一个非常有趣的使用案例。例如，如果你一直想学习某个主题，如果你需要复习一下生物学知识，或者你想了解一些世界大事，它非常擅长整理所有你觉得不理解的信息，以及你希望它去研究的方面，然后它会为你整理出一份不错的报告。

Isa Fulford: 我有一个朋友正在考虑创办一家 CPG 公司，他一直在大量使用 Deep Research 来查找类似的产品，以查看特定的名称是否已被注册——域名是否已被占用，以及进行市场规模估算等等。这很有趣——他会与我分享报告，我会阅读这些报告。所以看到这些真是太有趣了。

Josh Tobin: 另一个有趣的使用案例是，它非常擅长在互联网上找到单个的、隐晦的事实。例如，如果有一些，你知道的，像一部冷门的电视剧，你想找到，你知道的，比如找到某一集或类似的东西，它会深入挖掘，并在网络上找到关于它的唯一参考信息。

Isa Fulford: 哦，是的。我哥哥朋友的父亲有一个非常具体的事实问题。这个问题是关于一位奥地利将军，他在某场战役中某人去世时掌权。这是一个非常小众的问题。显然，ChatGPT 之前回答错了，而且他非常确定 ChatGPT 的答案是错误的。因此，他去了公共图书馆，找到了一份记录，发现 ChatGPT 确实错了。然后 Deep Research 能够给出正确的答案，所以我们把答案发给了他，他非常激动。[笑声]

Sonya Huang: 对于 Deep Research 今天非常擅长的任务，你们的粗略心智模型是什么？哪些场景应该使用 o 系列模型？哪些场景应该使用 Deep Research？

Josh Tobin: Deep Research 真正擅长的是，如果你对你想要的东西有详细的描述，并且为了获得最佳答案，需要阅读大量的互联网信息。如果你的问题比较模糊，它可以帮助你澄清你想要什么。但当你有特定的信息集要查找时，它才能发挥出最佳水平。

Isa Fulford: 而且我认为它非常擅长整合它遇到的信息，非常擅长找到特定的、难以找到的信息，但它可能不太擅长——而且它可以从它遇到的信息中产生一些新的见解，但我认为——它尚未做出新的科学发现。至于使用 o 系列模型，对我来说，如果我要求它做与编码相关的事情，通常不需要模型从预训练中获得的知识以外的知识。因此，对于编码或 o3-mini high，我通常会使用 o1 Pro 或 o1。

端到端训练

Lauren Reeder: Deep Research 是 OpenAI 新产品方向的一个绝佳例证。我很好奇，在你们可以分享的范围内，它是如何工作的？

Isa Fulford: 驱动 Deep Research 的模型是 o3 的微调版本，o3 是我们最先进的推理模型。我们专门在我们收集的复杂浏览任务以及其他推理任务上对其进行了训练。因此，它还可以访问浏览工具和 Python 工具。通过在这些任务上进行端到端训练，它学会了解决这些任务的策略，并且由此产生的模型擅长在线搜索和分析。

Josh Tobin: 而且，直观地理解它的方式是，你提出这个请求，最好是关于你想要什么的详细请求。模型会认真思考这个问题，它会搜索信息，提取信息并阅读，它会理解这些信息与该请求有何关系，然后决定接下来要搜索什么，以便更接近你想要的最终答案。并且它经过训练，能够很好地将所有这些信息汇总成一份整洁的报告，其中包含指向它找到的原始信息的引用。

Isa Fulford: 是的，我认为 Deep Research 作为一种 Agent 能力的新颖之处在于，由于我们能够进行端到端训练，因此在研究过程中有很多事情是你无法预先预测的。因此，我认为不可能编写一些语言模型、程序或脚本，使其像模型通过训练所能学到的那样灵活，模型实际上是对实时的网络信息做出反应，并且根据它看到的内容，它必须做出——改变其策略等等。因此，我们实际上看到它在进行非常有创造性的搜索。你可以阅读思维链摘要，我相信你有时可以看到它在想出下一个要查找的内容或绕过障碍方面非常聪明。

Sonya Huang: John Collison 发了一条在网上有点火的推文。 Deep Research 的魔力有多少来自于实时访问网络内容？又有多少来自于思维链？你们可以稍微解释一下吗？

Isa Fulford: 我认为这绝对是两者的结合。我认为你可以看到这一点，因为还有其他一些搜索产品不一定——没有经过端到端训练，因此在响应——响应它们遇到的信息时不会那么灵活，在如何创造性地解决特定问题方面也不会那么有创造力，因为它们没有专门为此目的进行训练。因此，这绝对是两者的结合。我的意思是，它是 o3 的微调版本。 o3 是一个非常智能和强大的模型。大量的分析能力也来自底层的 o3 模型训练。因此，我认为这绝对是两者的结合。

Josh Tobin: 在加入 OpenAI 之前，我曾在一家创业公司工作，我们也在尝试构建 Agent，构建方式与我在互联网上看到的大多数人描述的构建 Agent 的方式类似，基本上是你构建一个操作图，该图中的某些节点是语言模型。因此，语言模型可以决定下一步做什么，但所发生步骤的总体逻辑是由人定义的。我们发现，这是一种快速构建原型的强大方法，但在现实世界中很快就会失败，因为很难预测模型可能面临的所有场景，并考虑你可能想要采取的不同路径分支。

除此之外，模型通常不是该图中节点的最佳决策者，因为它们没有经过训练来做出这些决策。它们经过训练是为了做看起来与之相似的事情。因此，我认为这个模型真正强大之处在于，它经过直接的端到端训练，可以解决用户正在使用它来解决的这类任务。

Lauren Reeder: 因此，你们不必在后端设置图表或做出类似节点的架构决策？

Isa Fulford: 这完全由模型本身驱动。

Josh Tobin: 是的。

Sonya Huang: 你们能详细说说这个吗？因为这似乎是你们做出的非常明确的决策之一，而且显然它奏效了。有很多公司都在你们的 API 上构建应用程序，通过提示来解决特定用户的特定任务。你们认为，如果对这些应用程序的特定工作流程进行端到端训练，是否会更好地为它们服务？

Isa Fulford: 我认为，如果你的工作流程非常特定且可预测，那么采用 Josh 描述的方法就非常有意义。但是，如果你处理的事情有很多边缘情况，或者需要非常灵活，那么类似于 Deep Research 的方法可能是一个更好的选择。

Josh Tobin: 是的，我给人们的建议是，你不希望在模型中固化的是，你知道的，硬性规则。如果你有一个不希望模型触及的数据库或类似的东西，最好将其编码到人工编写的逻辑中。但我认为，这有点像我一次又一次看到人们在这个领域吸取的一个教训，那就是，我们认为我们自己编写程序可以比模型做得更智能。但实际上，通常模型——随着领域的进步，模型会找到比人类更好的解决方案。

Sonya Huang: 在实现 Deep Research 的过程中，最大的技术挑战是什么？

Josh Tobin: 嗯，也许我可以作为一个观察者而不是从一开始就参与其中的人来说说，但似乎 Isa 和团队的其他成员非常努力地工作，并且似乎是成功的隐藏关键之一是，制作非常高质量的数据集。这是机器学习中人们不断重新学习的古老教训之一。但你输入到模型中的数据质量可能是决定你从另一端获得的模型质量的最大因素。

Isa Fulford: 然后要有像 Edward (Edward Sun) 这样的人，他是参与这个项目的另一个人，他会优化任何数据集。这就是成功的秘诀。

Lauren Reeder: 找到你的 Edward。

Josh Tobin: 伟大的机器学习模型训练师。

Lauren Reeder: 你们如何确保它是正确的？

Isa Fulford: 是的，显然，这是这个模型和产品的核心部分，我们希望用户能够信任输出结果。部分原因是我们有引用，因此用户能够看到模型引用其信息的来源。而且，在训练期间，这是我们实际上尝试确保正确的事情，但模型仍然有可能犯错或产生幻觉，或者信任可能不是最值得信赖的信息来源。因此，这绝对是我们希望继续改进模型的一个活跃领域。

Deep Research 与 Operator

Sonya Huang: 我们应该如何将 Deep Research 与 o3 和 Operator 以及其他不同的发布版本结合起来考虑？例如，Deep Research 使用 Operator 吗？它们都是相互构建的吗？还是它们都是 o3 的一系列不同应用？

Josh Tobin: 目前，这些产品是相当独立的，但你可以想象我们未来的发展方向，即人们在未来某个时候可以访问的终极 Agent 应该不仅能够进行网络搜索或使用计算机，或者执行你希望人类助手执行的任何其他类型的操作，而且应该能够以更自然的方式融合所有这些功能。

Sonya Huang: 你们还做出了哪些乍一看可能不太明显的设计决策？

Isa Fulford: 我认为其中之一是澄清流程。如果你使用过 Deep Research，模型会在开始研究之前向你提问，而通常 ChatGPT 可能会在其回复的末尾向你提问，但通常不会在一开始就表现出这种行为。这是有意为之的，因为如果提示信息非常明确和详细，你将从 Deep Research 模型获得最佳回复。而且我认为，在第一个提示中提供所有信息并不是用户的自然行为，因此我们希望确保，如果你要等待 5 分钟、30 分钟，你的回复是尽可能详细和令人满意的。因此，我们添加了这些额外的步骤，以确保用户提供我们需要的所有详细信息。

而且我实际上看到很多人在 Twitter 上说，他们有一种流程，他们会与 o1 或 o1 Pro 交谈，以帮助使其提示更详细，并且一旦他们对提示感到满意，他们就会将其发送给 Deep Research。这很有趣。因此，人们正在找到他们自己的工作流程来使用 Deep Research。

Lauren Reeder: 在过去几个月中，已经发布了三款不同的 Deep Research 产品。请简单介绍一下是什么让你们的产品与众不同，以及我们应该如何看待它。

Sonya Huang: 而且它们都叫做 Deep Research，对吗？

Josh Tobin: 它们都叫做 Deep Research。是的，这个领域的命名创意不多。我认为人们应该亲自试用所有这些产品，并感受一下。我认为质量上的差异，我认为它们都有优点和缺点，但我认为差异将是显而易见的。但这归根结底只是构建此模型的方式以及构建数据集所付出的努力，以及我们使用 o 系列模型的引擎，这使我们能够优化模型，使其变得非常智能和高质量。

Sonya Huang: 去年我们邀请了 o1 团队参加播客节目，我们当时开玩笑说 OpenAI 不太擅长命名。我要说，Deep Research 是你们命名最成功的产品。[笑声]

Josh Tobin: Deep Research 是吗？至少它描述了它的功能，我想。

未来展望

Lauren Reeder: 我很想听听你们对未来的展望。你们今天推出了 Deep Research。你们认为一年后它会是什么样子？也许你们还想在此过程中构建哪些互补的东西？

Isa Fulford: 我们很高兴扩展模型可以访问的数据源。我们训练的模型通常非常擅长浏览公共信息，但它也应该能够搜索私人数据。然后我认为就是进一步提升其能力。因此，它可以更擅长浏览，可以更擅长分析。是的，我认为短期内我们希望改进这些方面。

Josh Tobin: 是的。然后考虑这如何融入我们更广泛的 Agent 路线图。就像，我认为这里的秘诀将扩展到非常广泛的使用案例，这些案例会让人们对其工作效果感到惊讶。但这种想法是，你采用最先进的推理模型，让它访问人类可以用来完成工作或日常生活的相同工具，然后你直接针对你希望 Agent 能够执行的这类结果进行优化。这种秘诀，实际上没有什么可以阻止这种秘诀扩展到越来越复杂的任务，所以我感觉，是的，AGI 现在是一个操作问题。而且我认为，在这个通用公式中还有很多值得期待的东西。

Lauren Reeder: Sam (Sam Altman) 有一句非常引人注目的话，他说 Deep Research 将接管全球所有具有经济价值的任务中个位数百分比的任务。我们应该如何理解这句话？

Josh Tobin: 我认为可以这样理解，Deep Research 无法完成你所做的一切，但它能够为你节省数小时，有时在某些情况下甚至可以节省数天的时间。因此，我认为，我们可能相对接近实现的目标是，Deep Research 以及我们接下来构建的 Agent，以及我们在其基础上构建的 Agent，将为你节省 1%、5%、10%、25% 的时间，具体取决于你从事的工作类型。

Sonya Huang: 我的意思是，我认为你们真的自动化了我 80% 的工作，所以……

Lauren Reeder: [笑声] 对我来说肯定更高。

Josh Tobin: 我想我们只需要开始开支票了。是的。

Sonya Huang: 你们认为哪些整个职业类别更——“面临风险”这个词用词不当，但更接近 Deep Research 非常擅长的领域？例如，我想到咨询业，但是，你们认为哪些特定类别更接近这个领域？

Josh Tobin: 是的，我以前是一名顾问。我认为没有任何工作面临风险。我真的不认为这是一种劳动力替代的东西。但是，对于这些类型的知识型工作，你需要花费大量时间来浏览信息并得出结论，我认为 Deep Research 将赋予人们超能力。

Isa Fulford: 是的，我对很多医学使用案例感到非常兴奋。仅仅是查找关于某种疾病的所有文献或所有最新病例的能力。我认为我已经看到很多医生在网上发布了关于 Deep Research 的信息，或者他们联系我们说，“哦，我们用它做了这件事。我们用它来帮助为这位患者找到临床试验”或类似的事情。因此，对于那些已经非常忙碌的人来说，只是节省了一些时间，或者有些事情可能是他们以前没有时间做的，而现在他们能够获得这些信息了。

Josh Tobin: 是的。而且我认为，这方面的影响可能比表面听起来更为深远，对吧？这不仅仅是——不仅仅是节省了 5% 的时间，而是可能需要你花费 4 小时或 8 小时才能完成的事情，现在你可以通过 ChatGPT 订阅和 5 分钟的时间来完成。因此，如果你有无限的时间，你会做哪些类型的事情？现在你也许可以做很多很多份？

例如，你应该研究每一家可能投资的初创公司，而不是仅仅研究那些你有时间会面的公司吗？诸如此类的事情。

Sonya Huang: 或者在消费者方面，我想到的一件事是，你知道的，职业妈妈太忙了，没时间为蹒跚学步的孩子策划生日派对。就像，现在这变得可行了。所以我同意你的看法。这比节省 5% 的时间重要得多。

Josh Tobin: 是的。

Lauren Reeder: 这都是你以前无法做到的事情。

Isa Fulford: 没错。

Sonya Huang: 这将如何改变教育和我们学习的方式？现在我们身处 Agent 和 Deep Research 的世界，你们会教孩子们什么？

Josh Tobin: 教育一直是人们使用 ChatGPT 的首要用途之一。我认为——这对 ChatGPT 总体而言也是如此。就像通过与 AI 系统对话来学习事物，该系统能够根据你告诉它的信息，或者在未来根据它对你的了解来个性化它提供给你的信息，这感觉是一种比阅读教科书更有效的学习方式，也是一种更具吸引力的学习方式。

闪电提问环节

Lauren Reeder: 我们有一些闪电提问环节的问题。

Josh Tobin: 好的。

Sonya Huang: 好的。你们最喜欢的 Deep Research 使用案例是什么？

Josh Tobin: 我会说是的，比如，个性化教育。只是，学习任何我想学习的东西。

Isa Fulford: 我已经提到过了，但我认为人们分享的很多关于查找关于他们或他们家人所患疾病的信息的个人故事，都非常棒。

Sonya Huang: 好的。我们在去年看到一些应用类别爆发。例如，编码就是一个明显的例子。你们认为哪些应用类别将在今年爆发？

Josh Tobin: 我的意思是，显然是 Agent。

Isa Fulford: 我也要说这个。

Sonya Huang: 好的，2025 年是 Agent 年。

Josh Tobin: 我认为是这样。

Lauren Reeder: 那么，你们认为应该向人们推荐阅读哪些内容，以更多地了解 Agent 或 AI 的发展方向？也可以是作者。

Sonya Huang: Training Data 播客。[笑声]

Josh Tobin: 我认为要跟上 AI 的最新发展非常困难。我给人们的一般建议是，选择一两个你真正感兴趣的子主题，然后，你知道的，策划一份你认为正在就此发表有趣言论的人员名单，以及如何找到你感兴趣的那一两件事。也许实际上，这是一个不错的 Deep Research 使用案例。使用它来深入研究你想要了解更多的事物。

Isa Fulford: 现在这有点过时了，但我想几年前我看过——我认为它叫做 强化学习基础 (Foundations of RL) 或者类似的东西，来自 Pieter Abbeel。它有点过时了，但我认为这是一个很好的强化学习入门。

Josh Tobin: 是的，我肯定会赞同 Pieter Abbeel 的任何内容。我的研究生导师。

Isa Fulford: 哦，是的。

Sonya Huang: 好的。 强化学习经历了一个高峰期，然后感觉又陷入了低迷期。再次发问，这是对强化学习当前发展态势的正确解读吗？

Josh Tobin: 它又回来了。是的。

Sonya Huang: 它又回来了。为什么？为什么是现在？

Josh Tobin: 因为其他一切都奏效了。就像，我想，如果有人关注这个领域一段时间，可能会记得 Yann LeCun 的蛋糕比喻？

Sonya Huang: 说说看。

Josh Tobin: 所以，就像，如果你要制作一个蛋糕，那么蛋糕的大部分是蛋糕体，然后有一点糖霜，然后顶部有一些樱桃。这个比喻是说，无监督学习是蛋糕体，监督学习是糖霜，强化学习是顶部的樱桃。

我认为，当我们在 2015 年、2016 年在这个领域从事强化学习研究时，有点像，我认为 Yann LeCun 的比喻，我认为现在回想起来可能是正确的，是我们当时试图在没有蛋糕体的情况下添加樱桃。但现在我们有了在海量数据上预训练的语言模型，它们的能力非常强大。我们知道如何在这些语言模型上进行监督微调，使它们擅长遵循指令，并普遍完成人们希望它们做的事情。

因此，既然这已经非常有效了，那么现在就可以对这些模型进行微调，以适应你可以为其定义奖励函数的任何类型的使用案例。

Sonya Huang: 太棒了。好的，从这个闪电提问环节中，我们获得了 Deep Research 最喜欢的 AI 应用。 Agent 将成为 2025 年的爆发类别。而且强化学习又回来了。我喜欢。非常感谢你们加入我们。我们很喜欢这次对话。祝贺你们发布了一款出色的产品，我们迫不及待想看看它会带来什么。