OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

50.1K 00

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

今天凌晨2点，OpenAI的12天直播，终于来到了最终章。OpenAI o3正式发布！

o3 是 o1 系列模型的继任者。这类模型的特点是让模型在回答问题之前花更多时间思考（推理），从而提高回答的准确率。不过，OpenAI 在命名上跳过了 o2。据 The Information 报道，这么做是为了避免版权问题，因为英国有家电信公司名叫 O2，可能引起混淆。Sam Altman 在今天下午的直播中证实了这一点。

事实上，从昨天开始，OpenAI 就已经开始预热这个模型。而且已经有开发者在网上找到了 OpenAI 网站上对 o3_min_safety_test 的引用。

o3发布时间

现在，和传言的一样，o3 和 o3-mini 来了！遗憾的是，o3 系列模型并不会直接公开发布，而是会先进行安全测试。Sam Altman 也指出今天不是发布（launch），只是宣布（announce）。

Sam Altman 提到，他们计划在一月底左右推出 o3-mini，并在不久后推出完整的 o3 模型。

o3 和 o3-mini 差异

o3-mini：o3 mini 是一个更经济高效的 o3 版本，专注在提升推理速度、降低推理成本的同时兼顾模型性能。高性能低成本，非常适合编程。

它支持三种不同的推理时间选项 —— 低、中、高。

与 o1 相比，o3-mini 在 Codeforces 上的性能具有显著的成本效益，这使其成为一个非常适合用来编程的模型。

在数学问题上，o3-mini (low) 实现了与 gpt-4o 相当的低延迟。

o3-mini 上所有的 API 特性以及相应的能力表现如下：

o3能力测试

o3 到底有多强，与谷歌刚刚发布的Gemini 2.0 Flash Thinking比较一下：

o3的能力，对现在所有模型，几乎都直接是降维打击。看下o3的能力吧。

左边的是软件工程考试（SWE-Bench Verified），这就像是一个考写程序的考试，比如你写一个软件要它快速、准确，还不能有 bug（小错误）。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。o3 的成绩：71.7%，比o1还强了不少。右边的那个基准比较猛，Codeforces，一个全球著名的编码竞赛平台。o3的得分是2727，这个得分，相当于整个榜单的第175名，已经超越了99.99%的人类了。

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型
o1的代码能力已经强到爆炸了，而o3，又向AGI的山顶，前进了一大步。

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型数学竞赛AIEM 2024和博士级科学考试GPQA Diamond。AIEM 2024接近满分，如果我没记错的话，这应该也是第一次AI能达到有AIEM接近满分的水平。博士级科学考试有进化，但没数学和编程进化的这么猛。

接下来的这个数学基准比较有趣一点。 OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 rontierMath，Epoch AI 开发的一个数学基准测试，由60多位顶尖数学家的合作开发，旨在评估人工智能在高级数学推理方面的能力。而且为了避免数据污染，所有的题目都是原创的且从来没有发布过的新题目。
之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候，成功功率不足2%，与其他传统数学基准（如 GSM-8K 和 MATH）中超过90%的成功率形成鲜明对比。而这一次，o3直接达到了25.2。当各大其他模型都还在卷传统数学基准的时候，o3真的已经进入了另一个世界了。。。

o3成为首个突破ARC-AGI基准测试的AI模型

ARC Prize Fundation 是一个非营利组织，旨在「通过基准测试来成为实现 AGI 之路的北极星」。该组织的首个基准 ARC-AGI 已经提出了 5 年时间，但一直未被攻克。

直到现在，Kamradt 宣布 o3 已经在该基准上达到了优良水平，成为首个突破 ARC-AGI 基准的 AI 模型。

ARC-AGI于2019年首次提出，旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能，因为它们往往依赖于先前知识和经验，而真正的智能应体现在广泛的适应能力和通用性上。所以，ARC-AGI诞生了，里面的这些任务要求AI识别模式并解决新问题，每个任务由输入输出示例组成。这些任务以网格形式呈现，每个方块可以是十种颜色中的一种，网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出，测试其推理和抽象能力。可以简单的理解成，找规律。大概就是这样的： OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

在 ARC-AGI 基准中，AI 需要根据配对的「输入 - 输出」示例寻找规律，然后再基于一个输入预测输出，下图展示了一些例子。参加过毕业季招聘或公务员考试的人或许对此类图形推理问题并不陌生。
OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

非常的难且抽象。过去几代模型的评分在此：
据介绍，o3 系列模型在 ARC-AGI 基准上的最低性能可达到 75.7%，而如果让其使用更多计算资源思考更长时间，o3 更是可以达到 87.5% 的水平。
OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型从0%到5%，整整花了5年的时间，而如今，从5%到87.5%，仅仅只花了半年。而对应的，人类的阈值分数，是85%。我们通往AGI的路上，已经没有任何阻碍了。

o3 模型工作原理

关于 o3 模型的具体工作原理，目前我们只能进行一些推测。o3 模型的核心机制似乎是在 token 空间内进行自然语言程序搜索和执行 —— 在测试时，模型会在可能的思维链空间中搜索，这些思维链描述了解决任务所需的步骤，这种方式可能与 AlphaZero 风格的蒙特卡洛树搜索（Monte-Carlo tree search）颇有相似之处。在 o3 的情况下，搜索可能由某种评估模型引导进行。值得注意的是，DeepMind 的 Demis Hassabis 在 2023 年 6 月的一次采访中暗示，DeepMind 一直在研究这一概念 —— 这项工作已经酝酿了很长时间。