汎用人工知能(AGI)の進歩を測るベンチマークは非常に重要である。効果的なベンチマークは能力を明らかにし、優れたベンチマークは研究の方向性を鼓舞する可能性が高くなる。 ARC-AGI
一連のベンチマークはそのような役割を果たし、真の汎用インテリジェンスに焦点を当てる研究努力を方向付ける。最新の ARC-AGI-2
ベンチマークとその予備テスト結果は、AI能力の境界と効率という現在の問題に対する警鐘である。
ARC-AGI-1
2019年の発表以来、AIが単なるパターン記憶を超え始める時期の特定に貢献し、AGIの進展を追跡するユニークな役割を果たしてきた。その後 ARC Prize 2024
このコンペティションには、テストタイム・アダプテーションの新しいアイデアを探求する多くの研究者も参加している。
しかし、AGIへの道のりはまだ長い。現在の進捗状況は以下の通りである。 OpenAI
な o3
このシステムが示しているのは、おそらく「流動的知性」の次元における限られたブレークスルーである。これらのシステムは非効率的なだけでなく、多くの人間の監視を必要とする。AGIを実現するためには、より多くの技術革新が必要であることは明らかである。
新たな挑戦:ARC-AGI-2、AIの弱点を暴くために作られる
そのため、アーク賞財団はこのたび ARC-AGI-2
ベンチマークこのベンチマークは、AI(特に推論システム)にとっては格段に難しく、人間にとっては比較的扱いやすいという明確な目標を念頭に置いて設計されている。これは単に難易度を上げるということではなく、現在のAI手法が克服するのに苦労している障壁に的を絞った挑戦である。
デザイン哲学:人は簡単、AIは難しいというインテリジェンス・ギャップに焦点を当てる
超人的な能力を追求する他の多くのAIベンチマークとは異なりARC-AGI
人間にとっては比較的簡単だが、現在のAIにとっては極めて困難なタスクに焦点を当てる。この戦略は、単に「スケールアップ」するだけでは埋められない能力のギャップを明らかにすることを目的としている。一般知能の核心は、限られた経験から効率的に知識を一般化し、応用する能力であり、これは現在のAIの弱点である。
ARC-AGI-2:エスカレートする難易度、AIの推論の弱さを直視する
ARC-AGI-2
ある ARC-AGI-1
AIの基盤は、AIに求められる要件を大幅に高め、高い適応性と効率性の両立を強調している。最先端のAIが過去のタスクで失敗した事例を分析することでARC-AGI-2
記号の解釈、組み合わせ論的推論、文脈的ルールの適用などの能力が試される課題をさらに導入。これらの課題は、AIに表面的なパターンマッチングだけでなく、より深いレベルの抽象化と推論を強いるように設計されている。
ARC-AGI-2の成績表:厳しい現実の反映
最新発表 ARC-AGI
リーダーボードのデータは、現在のAIの能力を厳しく描き出している。このデータは ARC-AGI-2
さらに、AIの汎用的な推論力と効率性には大きな隔たりがあることを、より深く明らかにしている。
リーダーボード・データの概要
AIシステム | 組織 | システム・タイプ | ARC-AGI-1 | ARC-AGI-2 | コスト/タスク | コード/用紙 |
---|---|---|---|---|---|---|
人間パネル | 人間 | 該当なし | 98.0% | 100.0% | $17.00 | - |
o3(低)*。 | オープンAI | CoT+合成 | 75.7% | 4.0% | $200.00 | 📄 |
o1(高い) | オープンAI | CoT | 32.0% | 3.0% | $4.45 | 💻 |
アーク・アーキテクツ | 2024年アーク賞 | カスタム | 56.0% | 2.5% | $0.200 | 📄💻 |
o3-ミニ (中) | オープンAI | CoT | 29.1% | 1.7% | $0.280 | 💻 |
アイスキューバー | 2024年アーク賞 | カスタム | 17.0% | 1.6% | $0.130 | 💻 |
O3ミニ(高) | オープンAI | CoT | 35.0% | 1.5% | $0.410 | 💻 |
ジェミニ 2.0フラッシュ | グーグル インターネット企業 | ベースLLM | 該当なし | 1.3% | $0.004 | 💻 |
o1(ミディアム) | オープンAI | CoT | 31.0% | 1.3% | $2.76 | 💻 |
ディープシーク R1 | ディープシーク | CoT | 15.8% | 1.3% | $0.080 | 💻 |
ジェミニ2.5-プロ-Exp-03-25 | グーグル インターネット企業 | CoT | 12.5% | 1.3% | 該当なし | 💻 |
ワンプロ | オープンAI | CoT+合成 | 50.0% | 1.0% | $39.00 | - |
クロード 3.7 (8K) | アンソロピック | CoT | 21.2% | 0.9% | $0.360 | 💻 |
ジェミニ1.5プロ | グーグル インターネット企業 | ベースLLM | 該当なし | 0.8% | $0.040 | 💻 |
GPT-4.5 | オープンAI | ベースLLM | 10.3% | 0.8% | $2.10 | 💻 |
o1(低い) | オープンAI | CoT | 25.0% | 0.8% | $1.44 | 💻 |
クロード 3.7 (16K) | アンソロピック | CoT | 28.6% | 0.7% | $0.510 | 💻 |
クロード 3.7 (1K) | アンソロピック | CoT | 11.6% | 0.4% | $0.140 | 💻 |
クロード 3.7 | アンソロピック | ベースLLM | 13.6% | 0.0% | $0.120 | 💻 |
GPT-4o | オープンAI | ベースLLM | 4.5% | 0.0% | $0.080 | 💻 |
GPT-4o-ミニ | オープンAI | ベースLLM | 該当なし | 0.0% | $0.010 | 💻 |
O3ミニ(低) | オープンAI | CoT | 11.0% | 0.0% | $0.060 | 💻 |
(注:*は表中の予備的推定値。* は実験モデル)
インサイト:データの背後にある警告
- 人間対AI:超えられない溝
人間とAIのパフォーマンスのコントラストほど印象的なものはない。その中でARC-AGI-2
その結果、人間チームは100%のパーフェクトスコアを達成し、最も優れたAIシステムであるOpenAI
なo3 (low)
のような他の有名なモデルは、4.0%にとどまった。Gemini 2.0 Flash
そしてDeepseek R1
など、いずれも1.3%前後で推移している。さらに憂慮すべきはClaude 3.7
そしてGPT-4o
そしてGPT-4o-mini
このようなベース大規模言語モデル(Base LLM)は、他のドメインで優れた性能を発揮している。ARC-AGI-2
ゲームのスコアはそのままゼロになった。このことは、特定のタスクでは信じられないほどの能力を発揮するにもかかわらず、柔軟で抽象的、一般化された推論能力を必要とする斬新な問題に直面したとき、AIが人間よりも根本的に劣っていることを容赦なく明らかにしている。 - AGI-1からAGI-2へ:AI能力の崖崩れ
テストに参加したほぼすべてのAIシステムは、以下のようなテストからスタートした。ARC-AGI-1
移行ARC-AGI-2
の時、成績はすべて急降下した。例えばo3 (low)
75.7%から4.0%に急落した。o1-pro
約50%から1.0%まで。ARChitects
この一般的な現象は、次のことを強く示唆している。ARC-AGI-2
CoTやシンセシス、あるいはその他のカスタマイズされたアプローチに基づくものであれ、効果的な対処が難しい現在のAI手法の「痛点」にうまく対処している。ARC-AGI-2
理性的な挑戦を表現した。 - システムの種類と効率:高コストは高知能につながらない
このランキングは、AIシステムのタイプによって、その役割が異なることを明らかにしている。ARC-AGI-2
における性能差と深刻な効率性の問題- CoT+合成システム (
o3 (low)
,o1-pro
)は比較的高いAIスコア(4.0%と1.0%)を達成したが、驚くほど高いコスト(1タスクあたりそれぞれ$200と$39)がかかった。このことは、複雑な推論+検索戦略は、スコアを少し「絞る」ことはできるかもしれないが、極めて非効率的であることを示唆している。 - 純粋なCoTシステム 成績はまちまちで、スコアはおおむね1%から3%、コストは数セントから数ドルであった。これは、CoTだけでは課題を満たすには不十分であることを示しているようだ。
- ベースLLM(大規模言語モデリング) (
GPT-4.5
,Gemini 1.5 Pro
,Claude 3.7
,GPT-4o
)は0%かそれに近いスコアという大失敗で、少なくとも「サイズがすべて」という考えに対する強い反証となった。ARC-AGI
これは、測定された一般的な流動性知能の側面にも当てはまる。 - カスタマイズされたシステム (
ARChitects
,Icecuber
)としてARC Prize 2024
タスクあたり~$0.1~$0.2)という非常に低いコストで、他のAIシステムに匹敵するか、わずかに優れた結果(2.5%、1.6%)を達成した。これは、大規模な汎用モデルよりも、対象を絞った軽量アルゴリズムやアーキテクチャの方が、この種の問題を解決できる可能性があることを示唆しており、オープンコンペティションやコミュニティのイノベーションの価値を浮き彫りにしている。
- CoT+合成システム (
- 効率性の危機:インテリジェンスは得点だけではありえない
ARC Prize
ランキングの重要な指標として「コスト/タスク」が含まれていることは重要である。このデータから、最高のパフォーマンスを発揮しているAI(o3 (low)
4%を得る)、タスクあたりのコスト($200)も人間($17で100%)の10倍以上である。のような低コストのモデルもある。Gemini 2.0 Flash
これは、AIが非常に低いコスト($0.004)であるにもかかわらず、1.3%しか得点できないのと対照的である。知性とは、どんな犠牲を払っても正しい答えを得ることではなく、効率は本質的な性質なのだ。現在、AIはARC-AGI-2
上に示した「容量-コスト」曲線は、間違いなく深刻な「効率性の危機」を示している。
データセットの構成と競技の詳細
ARC-AGI-2
以下のようなトレーニングセットと評価セットが含まれている。 pass@2
採点メカニズム。主な変更点は、タスク数の増加、ブルートフォースに弱いタスクの削除、ヒューマンテストに基づく難易度の較正、ターゲットとなる新タスクの設計などである。
アークプライズ2025コンペティションがスタート:新しいアイデアに100万ドルの賞金
この厳しい成績表でARC Prize 2025
コンペティションは Kaggle
賞金総額は100万ドル。コンペティションの環境は、APIの使用とコンピュート・リソースを制限し(〜50ドル/件)、勝者はソリューションをオープンソース化することを義務付けている。これにより、効率性と革新性の必要性がさらに強化される。
2024年と比較して、2025年のコンペティションの主なポイントは以下の通りである。変更履歴以下を含む ARC-AGI-2
データセット、新しいリーダーボード報告メカニズム、オープンソース要件の強化、計算リソースの倍増、オーバーフィッティング防止策の追加。
結論:真のブレークスルーには、新たなパラダイムが早急に必要である
ARC-AGI-2
リーダーボードのデータは、一般化された推論と効率性という点で、現在のAIの限界を明確に映し出す鏡の役割を果たしている。AGIへの道のりは決して平坦ではなく、単にモデルの規模を拡大したり、計算資源を増やすだけでは、目の前の隔たりを越えるには十分ではないことを思い起こさせる。真のブレークスルーには、新しいアイデア、異なるアーキテクチャ、そしておそらくは大手研究所以外のイノベーターが必要なのかもしれない。ARC Prize 2025
このようなプラットフォームこそ、新たなパラダイムを求めるものなのだ。