AI个人学习
和实操指南
讯飞绘镜

ARC-AGI-2 成绩揭晓:全部 AI 模型推理能力遭遇滑铁卢

ARC-AGI-2 成绩揭晓:全部 AI 模型推理能力遭遇滑铁卢-1

衡量通用人工智能(AGI)进展的基准至关重要。有效的基准能够揭示能力,而优秀的基准更能激发研究方向。ARC Prize 基金会致力于通过其 ARC-AGI 系列基准扮演这样的角色,引导研究力量关注真正的通用智能。最新的 ARC-AGI-2 基准及其初步测试结果,为当前 AI 能力的边界和效率问题敲响了警钟。


ARC-AGI-1 自 2019 年推出以来,在追踪 AGI 进展方面扮演了独特角色,曾帮助识别 AI 何时开始超越单纯的模式记忆。随后的 ARC Prize 2024 竞赛也吸引了大量研究者探索新的测试时适应性思路。

然而,通往 AGI 的道路依然漫长。当前的进展,如 OpenAI 的 o3 系统所展现的,或许只是在“流体智力”这个维度上实现了有限突破。这些系统不仅效率低下,且仍需大量人工监督。显然,AGI 的实现需要更多源头上的创新。

新挑战:ARC-AGI-2,专为暴露 AI 弱点而生

为此,ARC Prize 基金会现已推出 ARC-AGI-2 基准。其设计目标明确:对 AI(尤其是推理系统)来说难度显著提升,同时保持对人类的相对易处理性。这并非简单的难度增加,而是针对性地挑战当前 AI 方法难以克服的障碍。

设计哲学:聚焦人易 AI 难的智能鸿沟

与其他许多追求超人能力的 AI 基准不同,ARC-AGI 聚焦于那些对人类来说相对容易,但对当前 AI 而言却极其困难的任务。这种策略旨在揭示那些无法通过简单地“扩大规模”就能弥补的能力缺口。通用智能的核心在于从有限经验中高效泛化和应用知识的能力,而这正是当前 AI 的软肋。

ARC-AGI-2:难度升级,直面 AI 推理软肋

ARC-AGI-2 在 ARC-AGI-1 的基础上,显著提高了对 AI 的要求,强调高适应性与高效率的结合。通过分析前沿 AI 在先前任务上的失败案例,ARC-AGI-2 引入了更多考验符号解释、组合推理、上下文规则应用等能力的挑战。这些任务旨在迫使 AI 超越表面模式匹配,进行更深层次的抽象和推理。

ARC-AGI-2 成绩单:一份严峻的现实映照

最新公布的 ARC-AGI 排行榜数据,为我们描绘了一幅关于当前 AI 能力的严峻图景。这份数据不仅证实了 ARC-AGI-2 的挑战性,更深刻地揭示了 AI 在通用推理能力和效率上的巨大鸿沟。

ARC-AGI-2 成绩揭晓:全部 AI 模型推理能力遭遇滑铁卢-1

Leaderboard 数据概览

AI System Organization System Type ARC-AGI-1 ARC-AGI-2 Cost/Task Code / Paper
Human Panel Human N/A 98.0% 100.0% $17.00
o3 (low)* OpenAI CoT + Synthesis 75.7% 4.0% $200.00 📄
o1 (high) OpenAI CoT 32.0% 3.0% $4.45 💻
ARChitects ARC Prize 2024 Custom 56.0% 2.5% $0.200 📄💻
o3-mini (medium) OpenAI CoT 29.1% 1.7% $0.280 💻
Icecuber ARC Prize 2024 Custom 17.0% 1.6% $0.130 💻
o3-mini (high) OpenAI CoT 35.0% 1.5% $0.410 💻
Gemini 2.0 Flash Google Base LLM N/A 1.3% $0.004 💻
o1 (medium) OpenAI CoT 31.0% 1.3% $2.76 💻
Deepseek R1 Deepseek CoT 15.8% 1.3% $0.080 💻
Gemini-2.5-Pro-Exp-03-25 ** Google CoT 12.5% 1.3% N/A 💻
o1-pro OpenAI CoT + Synthesis 50.0% 1.0% $39.00
Claude 3.7 (8K) Anthropic CoT 21.2% 0.9% $0.360 💻
Gemini 1.5 Pro Google Base LLM N/A 0.8% $0.040 💻
GPT-4.5 OpenAI Base LLM 10.3% 0.8% $2.10 💻
o1 (low) OpenAI CoT 25.0% 0.8% $1.44 💻
Claude 3.7 (16K) Anthropic CoT 28.6% 0.7% $0.510 💻
Claude 3.7 (1K) Anthropic CoT 11.6% 0.4% $0.140 💻
Claude 3.7 Anthropic Base LLM 13.6% 0.0% $0.120 💻
GPT-4o OpenAI Base LLM 4.5% 0.0% $0.080 💻
GPT-4o-mini OpenAI Base LLM N/A 0.0% $0.010 💻
o3-mini (low) OpenAI CoT 11.0% 0.0% $0.060 💻

(注:表格中 * 表示初步估计值,* 表示实验性模型)*

深刻解读:数据背后的警示

  1. 人类 vs AI:难以逾越的鸿沟
    最引人注目的莫过于人类与 AI 表现的悬殊对比。在 ARC-AGI-2 上,人类小组取得了 100% 的完美得分,而表现最好的 AI 系统—— OpenAI 的 o3 (low),得分仅为 4.0%。其他知名模型,如 Gemini 2.0 FlashDeepseek R1 等,得分均在 1.3% 左右徘徊。更令人震惊的是,像 Claude 3.7GPT-4oGPT-4o-mini 这些在其他领域表现出色的基础大语言模型(Base LLM),在 ARC-AGI-2 上的得分直接归零。这无情地揭示了,尽管 AI 在特定任务上能力惊人,但在面对需要灵活、抽象、通用推理能力的新颖问题时,与人类相比仍有本质上的差距。
  2. 从 AGI-1 到 AGI-2:AI 能力的断崖式下跌
    几乎所有参与测试的 AI 系统,在从 ARC-AGI-1 过渡到 ARC-AGI-2 时,性能都出现了急剧下滑。例如,o3 (low) 从 75.7% 骤降至 4.0%,o1-pro 从约 50% 跌至 1.0%,ARChitects 从 56.0% 降至 2.5%。这一普遍现象强烈暗示,ARC-AGI-2 确实成功触及了当前 AI 方法论的“痛点”,无论是基于 CoT(思维链)、Synthesis(综合/搜索)还是其他定制方法,都难以有效应对 ARC-AGI-2 所代表的推理挑战。
  3. 系统类型与效率:高成本并未带来高智能
    排行榜进一步揭示了不同 AI 系统类型在 ARC-AGI-2 上的表现差异和严峻的效率问题:

    • CoT + Synthesis 系统 (o3 (low)o1-pro) 虽然取得了相对最高的 AI 分数(4.0% 和 1.0%),但其成本却高得惊人(分别为 $200 和 $39 每任务)。这表明复杂的推理加搜索策略或许能“挤”出一点分数,但效率极其低下。
    • 纯 CoT 系统 表现参差不齐,得分普遍在 1%-3% 之间,成本也从几美分到几美元不等。这似乎说明仅靠 CoT 不足以应对挑战。
    • 基础大语言模型 (Base LLM) (GPT-4.5Gemini 1.5 ProClaude 3.7GPT-4o) 的表现堪称溃败,得分多为 0% 或接近 0%。这有力地反驳了“规模就是一切”的观点,至少在 ARC-AGI 所衡量的通用流体智力方面是如此。
    • 定制系统 (Custom) (ARChitectsIcecuber) 作为 ARC Prize 2024 的产物,以极低的成本(约 $0.1-$0.2 每任务)取得了与其他 AI 系统相当甚至略优的成绩(2.5%, 1.6%)。这或许暗示了,针对性的、轻量级的算法或架构,在解决这类问题上可能比庞大而通用的模型更有潜力,也凸显了开放竞赛和社区创新的价值。
  4. 效率危机:智能不能只看分数
    ARC Prize 将“成本/任务”作为关键指标纳入排行榜,意义重大。数据显示,即使是表现最好的 AI (o3 (low) 得 4%),其单任务成本 ($200) 也是人类 ($17 得 100%) 的十倍以上。而一些低成本模型,如 Gemini 2.0 Flash,虽然成本极低 ($0.004),得分也仅有 1.3%。这形成了鲜明的对比:AI 要么得分极低,要么成本高昂,或者两者兼具。智能并非不计成本地获得正确答案,效率是其内在属性。当前 AI 在 ARC-AGI-2 上展现的“能力-成本”曲线,无疑暴露了一场深刻的“效率危机”。

数据集构成与竞赛细节

ARC-AGI-2 包含经校准的训练集和评估集,沿用 pass@2 评分机制。主要变更包括任务数量增加、移除易被暴力破解的任务、基于人类测试进行难度校准、并设计了针对性的新任务。

ARC Prize 2025 竞赛启动:百万美元悬赏新思路

伴随着这份严峻的成绩单,ARC Prize 2025 竞赛在 Kaggle 平台上线(3月26日-11月3日),总奖金高达 100 万美元。竞赛环境限制了 API 使用和计算资源(约 50 美元/提交),并强制要求获奖者开源解决方案。这进一步强化了对效率和创新的要求。

相较于 2024 年,2025 年竞赛的主要变更日志包括:采用 ARC-AGI-2 数据集、新的排行榜报告机制、强化开源要求、计算资源翻倍、以及额外的防过拟合措施。

结语:真正的突破亟待新范式

ARC-AGI-2 的排行榜数据如同一面镜子,清晰地映照出当前 AI 在通用推理和效率上的局限性。它提醒我们,通往 AGI 的道路远非坦途,简单的模型放大或增加计算资源可能不足以跨越眼前的鸿沟。真正的突破,或许需要全新的思路、不同的架构,甚至可能来自大型实验室之外的创新者。ARC Prize 2025 正是这样一个呼唤新范式的平台。

未经允许不得转载:首席AI分享圈 » ARC-AGI-2 成绩揭晓:全部 AI 模型推理能力遭遇滑铁卢
zh_CN简体中文