OpenAI推出的一系列全新的推理模型,专为解决棘手问题而生。将于 9 月 12 日起正式推出。
我们开发了一系列新型 AI 模型,这些模型在给出回答之前会花多时间进行思考。它们能够处理复杂任务,并在科学、编程和数学等领域解决比以往模型更具挑战性的问题。
今天,我们在 ChatGPT 和我们的 API 中发布了这个系列的第一个模型。这是一个预览版,我们计划进行定期更新和改进。与此同时,我们还提供了下一次更新的评估结果,该更新目前正在开发中。
工作原理
我们训练这些模型在回答问题之前进行更深入的思考,就像人类一样。通过训练,它们学会了完善思维过程、尝试不同策略,并且能够识别自己的错误。
在我们的测试中,即推出的模型更新在物理、化学和生物学等具有挑战性的基准任务上表现堪比博士生水平。我们还发现它在数学和编程方面表现出色。在国际数学奥林匹克 (IMO) 的资格考试中,GPT-4o 仅正确解决了 13% 的问题,而新的推理模型却达到了 83% 的正确率。在编程能力方面,它们在 Codeforces 比赛中的表现达到了前 89% 的水平。更多详细信息可以查看我们的技术研究文章。
作为一个早期模型,它目前还缺少许多 ChatGPT 的实用功能,比如网络浏览和文件图片上传等。在短期内,对于许多常见场景,GPT-4o 可能会更加实用。
然而,对于复杂的推理任务,这是一个重大突破,代表了 AI 能力的新高度。基于这一点,我们将计数器重置为 1,并将这个系列命名为 OpenAI o 安全性
在开发这些新模型的过程中,我们提出了一种新的安全训练方法,充分利用它们的推理能力,使其更好地遵守安全和对齐准则。通过能够在具体情境中推理我们的安全规则,它可以更有效地应用这些规则。
我们衡量安全性的一种方式是测试模型在面对用户试图绕过安全规则(俗称"越狱")时能否继续遵守这些规则。在我们最具挑战性的越狱测试中,GPT-4o 的得分为 22(满分 100),而我们的 o1-preview 模型得分高达 84。更多详情可以查看系统说明和我们的研究文章。
为了匹配这些模型的新能力,我们加强了安全工作、内部治理和与联邦政府的合作。这包括使用我们的准备框架进行严格的测试和评估,顶级的红队测试,以及董事会级别的审查流程,其中包括我们的安全与安全委员会的参与。
为了推进我们对 AI 安全的承诺,我们最近与美国和英国的 AI 安全研究所达成了正式协议。我们已经开始落实这些协议,包括授予这些研究所提前访问该模型研究版本的权限。这是我们合作关系中的重要第一步,有助于建立一个在公开发布前后对未来模型进行研究、评估和测试的流程。
适用人群
这些增强的推理能力特别适合那些在科学、编程、数学等领域处理复杂问题的人。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以用它生成量子光学所需的复杂数学公式,而各领域的开发人员则可以利用它构建和执行多步骤工作流程。
OpenAI o1-mini
o1 系列模型在生成和调试复杂代码方面表现卓越。为了给开发者提供更高效的解决方案,我们推出了 OpenAI o1-mini。这是一个更快速、更经济的推理模型,特别擅长编程任务。作为一个规模较小的模型,o1-mini 的成本比 o1-preview 低 80%,成为那些需要推理能力但不需要广泛世界知识的应用程序的理想选择,既强大又经济实惠。
如何使用 OpenAI o1
从今天开始,ChatGPT Plus 和 Team 用户可以在 ChatGPT 中使用 o1 模型。用户可以在模型选择器中手动选择 o1-preview 和 o1-mini。在发布初期,每周使用限制为:o1-preview 30 条消息,o1-mini 50 条消息。我们正在努力提高这些限制,并开发 ChatGPT 自动为每个提示选择最合适模型的功能。
ChatGPT Enterprise 和 Edu 用户将从下周开始获得两种模型的使用权。符合 API 使用等级 5 (在新窗口中打开) 的开发者现在就可以开始在 API 中使用这两种模型进行原型发,目前的速率限制为每分钟 20 次请求。我们正在进行额外测试,以期提高这些限制。目前,这些模型的 API 不包括函数调用、流式传输、系统消息支持等功能。想要开始使用,请查看 API 文档 (在新窗口中打开)。
我们还计划让所有 ChatGPT 免费用户都能使用 o1-mini。
未来展望
这只是 ChatGPT 和 API 中这些推理模型的早期预览。除了持续更新模型外,我添加网页浏览、文件和图片上传等功能,以增强它们的实用性。
除了新的 OpenAI o1 系列,我们还将继续开发和发布 GPT 系列模型。