ARC-AGI-2 成绩揭晓：全部 AI 模型推理能力遭遇滑铁卢

1.7K 00

衡量通用人工智能（AGI）进展的基准至关重要。有效的基准能够揭示能力，而优秀的基准更能激发研究方向。ARC Prize 基金会致力于通过其 ARC-AGI 系列基准扮演这样的角色，引导研究力量关注真正的通用智能。最新的 ARC-AGI-2 基准及其初步测试结果，为当前 AI 能力的边界和效率问题敲响了警钟。

ARC-AGI-1 自 2019 年推出以来，在追踪 AGI 进展方面扮演了独特角色，曾帮助识别 AI 何时开始超越单纯的模式记忆。随后的 ARC Prize 2024 竞赛也吸引了大量研究者探索新的测试时适应性思路。

然而，通往 AGI 的道路依然漫长。当前的进展，如 OpenAI 的 o3 系统所展现的，或许只是在“流体智力”这个维度上实现了有限突破。这些系统不仅效率低下，且仍需大量人工监督。显然，AGI 的实现需要更多源头上的创新。

新挑战：ARC-AGI-2，专为暴露 AI 弱点而生

为此，ARC Prize 基金会现已推出 ARC-AGI-2 基准。其设计目标明确：对 AI（尤其是推理系统）来说难度显著提升，同时保持对人类的相对易处理性。这并非简单的难度增加，而是针对性地挑战当前 AI 方法难以克服的障碍。

设计哲学：聚焦人易 AI 难的智能鸿沟

与其他许多追求超人能力的 AI 基准不同，ARC-AGI 聚焦于那些对人类来说相对容易，但对当前 AI 而言却极其困难的任务。这种策略旨在揭示那些无法通过简单地“扩大规模”就能弥补的能力缺口。通用智能的核心在于从有限经验中高效泛化和应用知识的能力，而这正是当前 AI 的软肋。

ARC-AGI-2：难度升级，直面 AI 推理软肋

ARC-AGI-2 在 ARC-AGI-1 的基础上，显著提高了对 AI 的要求，强调高适应性与高效率的结合。通过分析前沿 AI 在先前任务上的失败案例，ARC-AGI-2 引入了更多考验符号解释、组合推理、上下文规则应用等能力的挑战。这些任务旨在迫使 AI 超越表面模式匹配，进行更深层次的抽象和推理。

ARC-AGI-2 成绩单：一份严峻的现实映照

最新公布的 ARC-AGI 排行榜数据，为我们描绘了一幅关于当前 AI 能力的严峻图景。这份数据不仅证实了 ARC-AGI-2 的挑战性，更深刻地揭示了 AI 在通用推理能力和效率上的巨大鸿沟。

Leaderboard 数据概览

AI System	Organization	System Type	ARC-AGI-1	ARC-AGI-2	Cost/Task	Code / Paper
Human Panel	Human	N/A	98.0%	100.0%	$17.00	—
o3 (low)*	OpenAI	CoT + Synthesis	75.7%	4.0%	$200.00	📄
o1 (high)	OpenAI	CoT	32.0%	3.0%	$4.45	💻
ARChitects	ARC Prize 2024	Custom	56.0%	2.5%	$0.200	📄💻
o3-mini (medium)	OpenAI	CoT	29.1%	1.7%	$0.280	💻
Icecuber	ARC Prize 2024	Custom	17.0%	1.6%	$0.130	💻
o3-mini (high)	OpenAI	CoT	35.0%	1.5%	$0.410	💻
Gemini 2.0 Flash	Google	Base LLM	N/A	1.3%	$0.004	💻
o1 (medium)	OpenAI	CoT	31.0%	1.3%	$2.76	💻
Deepseek R1	Deepseek	CoT	15.8%	1.3%	$0.080	💻
Gemini-2.5-Pro-Exp-03-25 **	Google	CoT	12.5%	1.3%	N/A	💻
o1-pro	OpenAI	CoT + Synthesis	50.0%	1.0%	$39.00	—
Claude 3.7 (8K)	Anthropic	CoT	21.2%	0.9%	$0.360	💻
Gemini 1.5 Pro	Google	Base LLM	N/A	0.8%	$0.040	💻
GPT-4.5	OpenAI	Base LLM	10.3%	0.8%	$2.10	💻
o1 (low)	OpenAI	CoT	25.0%	0.8%	$1.44	💻
Claude 3.7 (16K)	Anthropic	CoT	28.6%	0.7%	$0.510	💻
Claude 3.7 (1K)	Anthropic	CoT	11.6%	0.4%	$0.140	💻
Claude 3.7	Anthropic	Base LLM	13.6%	0.0%	$0.120	💻
GPT-4o	OpenAI	Base LLM	4.5%	0.0%	$0.080	💻
GPT-4o-mini	OpenAI	Base LLM	N/A	0.0%	$0.010	💻
o3-mini (low)	OpenAI	CoT	11.0%	0.0%	$0.060	💻

(注：表格中 * 表示初步估计值，* 表示实验性模型)*

深刻解读：数据背后的警示

人类 vs AI：难以逾越的鸿沟
最引人注目的莫过于人类与 AI 表现的悬殊对比。在 ARC-AGI-2 上，人类小组取得了 100% 的完美得分，而表现最好的 AI 系统—— OpenAI 的 o3 (low)，得分仅为 4.0%。其他知名模型，如 Gemini 2.0 Flash、Deepseek R1 等，得分均在 1.3% 左右徘徊。更令人震惊的是，像 Claude 3.7、GPT-4o、GPT-4o-mini 这些在其他领域表现出色的基础大语言模型（Base LLM），在 ARC-AGI-2 上的得分直接归零。这无情地揭示了，尽管 AI 在特定任务上能力惊人，但在面对需要灵活、抽象、通用推理能力的新颖问题时，与人类相比仍有本质上的差距。
从 AGI-1 到 AGI-2：AI 能力的断崖式下跌
几乎所有参与测试的 AI 系统，在从 ARC-AGI-1 过渡到 ARC-AGI-2 时，性能都出现了急剧下滑。例如，o3 (low) 从 75.7% 骤降至 4.0%，o1-pro 从约 50% 跌至 1.0%，ARChitects 从 56.0% 降至 2.5%。这一普遍现象强烈暗示，ARC-AGI-2 确实成功触及了当前 AI 方法论的“痛点”，无论是基于 CoT（思维链）、Synthesis（综合/搜索）还是其他定制方法，都难以有效应对 ARC-AGI-2 所代表的推理挑战。
系统类型与效率：高成本并未带来高智能
排行榜进一步揭示了不同 AI 系统类型在 ARC-AGI-2 上的表现差异和严峻的效率问题：
- CoT + Synthesis 系统 (o3 (low), o1-pro) 虽然取得了相对最高的 AI 分数（4.0% 和 1.0%），但其成本却高得惊人（分别为 $200 和 $39 每任务）。这表明复杂的推理加搜索策略或许能“挤”出一点分数，但效率极其低下。
- 纯 CoT 系统 表现参差不齐，得分普遍在 1%-3% 之间，成本也从几美分到几美元不等。这似乎说明仅靠 CoT 不足以应对挑战。
- 基础大语言模型 (Base LLM) (GPT-4.5, Gemini 1.5 Pro, Claude 3.7, GPT-4o) 的表现堪称溃败，得分多为 0% 或接近 0%。这有力地反驳了“规模就是一切”的观点，至少在 ARC-AGI 所衡量的通用流体智力方面是如此。
- 定制系统 (Custom) (ARChitects, Icecuber) 作为 ARC Prize 2024 的产物，以极低的成本（约 $0.1-$0.2 每任务）取得了与其他 AI 系统相当甚至略优的成绩（2.5%, 1.6%）。这或许暗示了，针对性的、轻量级的算法或架构，在解决这类问题上可能比庞大而通用的模型更有潜力，也凸显了开放竞赛和社区创新的价值。
效率危机：智能不能只看分数
ARC Prize 将“成本/任务”作为关键指标纳入排行榜，意义重大。数据显示，即使是表现最好的 AI (o3 (low) 得 4%)，其单任务成本 ($200) 也是人类 ($17 得 100%) 的十倍以上。而一些低成本模型，如 Gemini 2.0 Flash，虽然成本极低 ($0.004)，得分也仅有 1.3%。这形成了鲜明的对比：AI 要么得分极低，要么成本高昂，或者两者兼具。智能并非不计成本地获得正确答案，效率是其内在属性。当前 AI 在 ARC-AGI-2 上展现的“能力-成本”曲线，无疑暴露了一场深刻的“效率危机”。

数据集构成与竞赛细节

ARC-AGI-2 包含经校准的训练集和评估集，沿用 pass@2 评分机制。主要变更包括任务数量增加、移除易被暴力破解的任务、基于人类测试进行难度校准、并设计了针对性的新任务。

ARC Prize 2025 竞赛启动：百万美元悬赏新思路

伴随着这份严峻的成绩单，ARC Prize 2025 竞赛在 Kaggle 平台上线（3月26日-11月3日），总奖金高达 100 万美元。竞赛环境限制了 API 使用和计算资源（约 50 美元/提交），并强制要求获奖者开源解决方案。这进一步强化了对效率和创新的要求。

相较于 2024 年，2025 年竞赛的主要变更日志包括：采用 ARC-AGI-2 数据集、新的排行榜报告机制、强化开源要求、计算资源翻倍、以及额外的防过拟合措施。

结语：真正的突破亟待新范式

ARC-AGI-2 的排行榜数据如同一面镜子，清晰地映照出当前 AI 在通用推理和效率上的局限性。它提醒我们，通往 AGI 的道路远非坦途，简单的模型放大或增加计算资源可能不足以跨越眼前的鸿沟。真正的突破，或许需要全新的思路、不同的架构，甚至可能来自大型实验室之外的创新者。ARC Prize 2025 正是这样一个呼唤新范式的平台。