ARC-AGI-2 결과 공개: 모든 AI 모델 추론 능력을 위한 워털루

64.9K 00

범용 인공 지능(AGI)의 진전을 측정하는 벤치마크는 매우 중요합니다. 효과적인 벤치마크는 역량을 드러내고, 훌륭한 벤치마크는 연구 방향에 영감을 줄 가능성이 높습니다. ARC Prize 재단은 다음을 통해 AGI의 개발과 보급을 위한 플랫폼을 제공하기 위해 노력하고 있습니다. ARC-AGI 일련의 벤치마크는 이러한 역할을 수행하여 진정한 범용 인텔리전스에 초점을 맞춘 연구 노력을 이끌고 있습니다. 최신 ARC-AGI-2 이 벤치마크와 예비 테스트 결과는 AI 기능의 경계와 효율성이라는 현재 이슈에 대한 경각심을 일깨워줍니다.

ARC-AGI-1 2019년에 출시된 이래, AI가 단순한 패턴 기억을 넘어서기 시작하는 시점을 파악하는 데 도움을 주며 AGI의 진행 상황을 추적하는 데 고유한 역할을 해왔습니다. 이후 ARC Prize 2024 이 대회는 또한 시험 시간 적응을 위한 새로운 아이디어를 모색하기 위해 많은 연구자들을 끌어모았습니다.

하지만 AGI로 가는 길은 아직 멀기만 합니다. 현재 진행 상황은 다음과 같습니다. OpenAI (명목식 형태로 사용됨) o3 이러한 시스템이 보여주는 것은 아마도 '유동적 지능'이라는 차원에서의 제한적인 돌파구일 것입니다. 이러한 시스템은 비효율적일 뿐만 아니라 사람의 감독도 많이 필요합니다. AGI를 실현하려면 소스에서 더 많은 혁신이 필요하다는 것은 분명합니다.

새로운 도전: AI의 약점을 노출하기 위해 구축된 ARC-AGI-2

이를 위해 아크 프라이즈 재단은 이제 ARC-AGI-2 벤치마크. 인공지능(특히 추론 시스템)에게는 훨씬 더 어렵게, 인간에게는 상대적으로 쉽게 처리할 수 있도록 한다는 분명한 목표를 염두에 두고 설계되었습니다. 이는 단순히 난이도를 높이는 것이 아니라 현재의 AI 방식으로는 극복하기 어려운 장벽에 도전하는 것입니다.

디자인 철학: 사람은 쉽고 AI는 어려운 지능 격차에 집중하기

초인적인 기능을 추구하는 다른 많은 AI 벤치마크와 달리, 이 제품은ARC-AGI 인간에게는 비교적 쉽지만 현재 인공지능에게는 매우 어려운 작업에 집중합니다. 이 전략은 단순한 '확장'으로는 메울 수 없는 능력의 격차를 드러내는 것을 목표로 합니다. 일반 지능의 핵심은 제한된 경험에서 얻은 지식을 효율적으로 일반화하고 적용하는 능력인데, 이는 현재 AI의 약점입니다.

ARC-AGI-2: 난이도 상승, AI 추론의 약점에 직접 직면하기

ARC-AGI-2 존재 ARC-AGI-1 AI의 기반은 높은 적응성과 효율성의 조합을 강조하면서 AI에 대한 요구 사항을 크게 증가시켰습니다. 이전 작업에서 최첨단 AI가 실패한 사례를 분석하여ARC-AGI-2 기호 해석, 조합적 추론, 문맥 규칙 적용 등의 능력을 테스트하는 더 많은 과제를 소개합니다. 이러한 과제는 AI가 표면적인 패턴 매칭을 넘어 더 깊은 수준의 추상화 및 추론으로 나아갈 수 있도록 설계되었습니다.

ARC-AGI-2 성적표: 현실의 암울한 반영

최신 게시 ARC-AGI 리더보드 데이터는 현재의 AI 역량에 대한 암울한 그림을 그려줍니다. 이 데이터는 다음을 확인할 수 있을 뿐만 아니라 ARC-AGI-2 의 도전은 AI의 범용 추론 능력과 효율성에 큰 격차가 있음을 더욱 심도 있게 드러냅니다.

리더보드 데이터 개요

AI 시스템	조직	시스템 유형	ARC-AGI-1	ARC-AGI-2	비용/작업	코드 / 종이
휴먼 패널	인간	N/A	98.0%	100.0%	$17.00	-
O3(낮음)*	OpenAI	CoT + 합성	75.7%	4.0%	$200.00	📄
O1(높음)	OpenAI	CoT	32.0%	3.0%	$4.45	💻
ARChitects	ARC 상 2024	사용자 지정	56.0%	2.5%	$0.200	📄💻
o3-mini (중간)	OpenAI	CoT	29.1%	1.7%	$0.280	💻
아이스큐버	ARC 상 2024	사용자 지정	17.0%	1.6%	$0.130	💻
O3-mini(높음)	OpenAI	CoT	35.0%	1.5%	$0.410	💻
쌍둥이자리 2.0 플래시	Google 인터넷 회사	기본 LLM	N/A	1.3%	$0.004	💻
O1(중간)	OpenAI	CoT	31.0%	1.3%	$2.76	💻
Deepseek R1	Deepseek	CoT	15.8%	1.3%	$0.080	💻
Gemini-2.5-Pro-Exp-03-25	Google 인터넷 회사	CoT	12.5%	1.3%	N/A	💻
o1-pro	OpenAI	CoT + 합성	50.0%	1.0%	$39.00	-
Claude 3.7 (8K)	인류학	CoT	21.2%	0.9%	$0.360	💻
Gemini 1.5 Pro	Google 인터넷 회사	기본 LLM	N/A	0.8%	$0.040	💻
GPT-4.5	OpenAI	기본 LLM	10.3%	0.8%	$2.10	💻
O1(낮음)	OpenAI	CoT	25.0%	0.8%	$1.44	💻
클로드 3.7 (16K)	인류학	CoT	28.6%	0.7%	$0.510	💻
클로드 3.7 (1K)	인류학	CoT	11.6%	0.4%	$0.140	💻
Claude 3.7	인류학	기본 LLM	13.6%	0.0%	$0.120	💻
GPT-4o	OpenAI	기본 LLM	4.5%	0.0%	$0.080	💻
GPT-4o-mini	OpenAI	기본 LLM	N/A	0.0%	$0.010	💻
O3-mini(낮음)	OpenAI	CoT	11.0%	0.0%	$0.060	💻

(참고: *는 표에서 예비 추정치를 나타냅니다.* 실험적 모델을 나타냄)*

인사이트: 데이터 뒤에 숨은 경고

인간 대 AI: 극복할 수 없는 격차
인간과 AI의 성능이 극명하게 대비되는 것만큼 눈에 띄는 것은 없습니다. In ARC-AGI-2 인간 팀은 100%의 만점을 획득했으며, 최고 성능의 AI 시스템인 OpenAI (명목식 형태로 사용됨) o3 (low)와 같은 다른 잘 알려진 모델은 4.0%에 불과합니다. Gemini 2.0 Flash및Deepseek R1 등 모두 1.3% 정도의 점수를 기록했습니다. 더욱 놀라운 사실은 다음과 같은 사이트가 Claude 3.7및GPT-4o및GPT-4o-mini 다른 도메인에서 뛰어난 성능을 발휘한 이러한 기본 대규모 언어 모델(Base LLM)은 다음과 같은 분야에서 사용되었습니다. ARC-AGI-2 게임 점수는 곧바로 0점이 되었습니다. 이는 특정 작업에서는 놀라운 능력을 발휘하지만 유연하고 추상적이며 일반화된 추론 기술이 필요한 새로운 문제에 직면했을 때 AI가 여전히 인간보다 근본적으로 열등하다는 사실을 끊임없이 드러냅니다.
AGI-1에서 AGI-2로: AI 기능의 급격한 하락
테스트에 참여한 거의 모든 AI 시스템은 시작 후 ARC-AGI-1 전환 ARC-AGI-2 시간이 지나자 성능이 모두 급격히 떨어졌습니다. 예를 들어o3 (low) 75.71 TP3T에서 4.01 TP3T로 급락했습니다.o1-pro 약 50%에서 1.0%로 증가했습니다.ARChitects 56.01 TP3T에서 2.51 TP3T로 감소했으며, 이러한 일반적인 현상은ARC-AGI-2 CoT, 합성 또는 기타 맞춤형 접근 방식에 기반한 현재 AI 방법론의 '문제점'을 성공적으로 해결하여 효과적으로 처리하기 어렵습니다. ARC-AGI-2 추론 과제가 대표적이었습니다.
시스템 유형 및 효율성: 높은 비용이 높은 인텔리전스로 이어지지 않음
이 순위를 통해 다양한 AI 시스템 유형의 역할을 확인할 수 있습니다. ARC-AGI-2 성능 차이와 심각한 효율성 문제
- CoT + 합성 시스템 (o3 (low), o1-pro)는 상대적으로 가장 높은 인공지능 점수(4.0% 및 1.0%)를 얻었지만, 놀라울 정도로 높은 비용(과제당 각각 $200 및 $39)을 지불해야 했습니다. 이는 복잡한 추론과 검색 전략이 약간의 점수를 '쥐어짜낼' 수는 있지만 매우 비효율적이라는 것을 시사합니다.
- 퓨어 CoT 시스템 성능은 대체로 1%-3% 범위의 점수와 몇 센트에서 몇 달러에 이르는 비용으로 엇갈렸습니다. 이는 CoT만으로는 과제를 해결하기에 충분하지 않다는 것을 나타냅니다.
- 기본 LLM(대규모 언어 모델) (GPT-4.5, Gemini 1.5 Pro, Claude 3.7, GPT-4o)는 0% 또는 이에 근접한 점수를 기록하여 적어도 다음과 같은 경우 "크기가 전부"라는 생각에 대한 강력한 반박입니다. ARC-AGI 이는 측정된 일반화된 유동 지능 측면에서도 마찬가지입니다.
- 맞춤형 시스템 (ARChitects, Icecuber)로 ARC Prize 2024 제품에서 매우 낮은 비용(작업당 약 $0.1-$0.2)으로 다른 AI 시스템과 비슷하거나 약간 더 나은 결과(2.5%, 1.6%)를 달성한 것으로 나타났습니다. 이는 타깃화된 경량 알고리즘이나 아키텍처가 대규모 범용 모델보다 이러한 종류의 문제를 해결할 수 있는 잠재력이 더 클 수 있음을 시사하며, 공개 경쟁과 커뮤니티 혁신의 가치를 강조합니다.
효율성의 위기: 인텔리전스는 단순히 점수로만 평가할 수 없습니다.
ARC Prize '비용/작업'을 순위의 주요 지표로 포함시킨 것은 중요한 의미가 있습니다. 데이터에 따르면 아무리 성능이 뛰어난 인공지능(o3 (low) 4%를 얻음), 작업당 비용($200)도 사람의 10배가 넘습니다($17은 100%를 얻음). 다음과 같은 일부 저가형 모델도 있지만 Gemini 2.0 Flash이는 매우 낮은 비용($0.004)으로 1.3%의 점수에 불과하지만 매우 낮거나 비용이 많이 들거나 둘 다 드는 인공지능과는 극명한 대조를 이룹니다. 지능은 어떤 대가를 치르더라도 정답을 얻는 것이 아니라 효율성이 본질적인 속성입니다. 현재 AI는 ARC-AGI-2 위에 표시된 '용량-비용' 곡선은 의심할 여지 없이 심각한 '효율성 위기'를 드러내고 있습니다.

데이터 세트 구성 및 대회 세부 정보

ARC-AGI-2 다음과 같이 보정된 교육 및 평가 세트가 포함되어 있습니다. pass@2 채점 메커니즘. 주요 변경 사항으로는 작업 수 증가, 무차별 대입에 취약한 작업 제거, 인적 테스트를 기반으로 한 난이도 보정, 타겟팅된 새 작업 설계 등이 있습니다.

ARC 프라이즈 2025 공모전: 새로운 아이디어에 백만 달러 상금 수여

이 암울한 성적표로 인해ARC Prize 2025 대회는 다음 지역에서 개최되었습니다. Kaggle 이 플랫폼은 3월 26일부터 11월 3일까지 총 100만 달러의 상금을 걸고 진행됩니다. 대회 환경은 API 사용과 컴퓨팅 리소스를 제한하고(제출당 최대 50달러) 우승자는 솔루션을 오픈소스화하도록 의무화합니다. 이는 효율성과 혁신에 대한 필요성을 더욱 강조합니다.

2024 년과 비교하여 2025 년 대회의 주요 포인트는 다음과 같습니다.변경 로그포함: 다음 사용 ARC-AGI-2 데이터 세트, 새로운 리더보드 보고 메커니즘, 강화된 오픈 소스 요구 사항, 두 배로 늘어난 계산 리소스, 추가적인 과적합 방지 조치 등이 있습니다.

결론: 진정한 혁신을 위해서는 새로운 패러다임이 절실히 필요합니다.

ARC-AGI-2 리더보드 데이터는 일반화된 추론과 효율성 측면에서 현재 AI의 한계를 명확하게 반영하는 거울입니다. 이는 인공지능으로 가는 길이 결코 평탄하지 않으며, 단순히 모델을 확장하거나 컴퓨팅 리소스를 늘리는 것만으로는 우리 앞에 놓인 벽을 넘을 수 없음을 일깨워줍니다. 진정한 혁신을 위해서는 새로운 아이디어, 다른 아키텍처, 심지어 대형 연구소 외부의 혁신가들이 필요할 수도 있습니다.ARC Prize 2025 새로운 패러다임이 요구되는 플랫폼입니다.