ARC-AGI-2 Ergebnisse enthüllt: Waterloo für alle KI-Modelle - Denkfähigkeiten

AI-NachrichtenGeschrieben vor 4 Monaten AI-Austauschkreis

1.5K 00

Benchmarks zur Messung des Fortschritts in der allgemeinen künstlichen Intelligenz (AGI) sind von entscheidender Bedeutung. Effektive Benchmarks zeigen Fähigkeiten auf, und großartige Benchmarks sind eher geeignet, Forschungsrichtungen zu inspirieren.Die ARC Prize Foundation verpflichtet sich, eine Plattform für die Entwicklung und Verbreitung von AGI durch ihre ARC-AGI Die Reihe der Benchmarks spielt eine solche Rolle, indem sie die Forschungsanstrengungen auf eine echte Allzweckintelligenz ausrichtet. Die neueste ARC-AGI-2 Die Benchmarks und ihre vorläufigen Testergebnisse sind ein Weckruf für die aktuellen Probleme mit den Grenzen und der Effizienz von KI-Funktionen.

ARC-AGI-1 Seit seiner Einführung im Jahr 2019 hat es eine einzigartige Rolle bei der Verfolgung des Fortschritts von AGI gespielt und dazu beigetragen, den Zeitpunkt zu bestimmen, an dem KI beginnt, über das bloße Speichern von Mustern hinauszugehen. Im Anschluss daran ARC Prize 2024 Der Wettbewerb hat auch eine große Anzahl von Forschern angezogen, die neue Ideen für die Anpassung der Testzeit erforschen.

Der Weg zur AGI ist jedoch noch weit. Die derzeitigen Fortschritte, wie zum Beispiel OpenAI (in Form eines Nominalausdrucks) o3 Was die Systeme zeigen, ist vielleicht ein begrenzter Durchbruch in der Dimension der "fluiden Intelligenz". Diese Systeme sind nicht nur ineffizient, sondern erfordern auch viel menschliche Aufsicht. Es ist klar, dass mehr Innovation an der Quelle erforderlich ist, um AGI zu realisieren.

Eine neue Herausforderung: ARC-AGI-2, gebaut, um die Schwächen der KI aufzudecken

Zu diesem Zweck hat die Stiftung ARC Prize nun den ARC-AGI-2 Benchmarks. Er ist mit einem klaren Ziel vor Augen konzipiert: Er soll für KI (insbesondere für logisch denkende Systeme) deutlich schwieriger sein, während er für Menschen relativ einfach zu handhaben ist. Dies ist nicht einfach eine Erhöhung des Schwierigkeitsgrads, sondern eine gezielte Herausforderung an die Barrieren, die aktuelle KI-Methoden nur schwer überwinden können.

Designphilosophie: Konzentration auf die Intelligenzlücke, wo Menschen einfach und KI schwierig sind

Im Gegensatz zu vielen anderen KI-Benchmarks, die auf übermenschliche Fähigkeiten abzielen, ist derARC-AGI Konzentrieren Sie sich auf Aufgaben, die für Menschen relativ einfach, für die derzeitige KI aber extrem schwierig sind. Diese Strategie zielt darauf ab, Lücken in den Fähigkeiten aufzudecken, die nicht durch einfaches "Hochskalieren" geschlossen werden können. Das Herzstück der allgemeinen Intelligenz ist die Fähigkeit, Wissen aus begrenzter Erfahrung effizient zu verallgemeinern und anzuwenden, was die Schwäche der derzeitigen KI ist.

ARC-AGI-2: Eskalierender Schwierigkeitsgrad, direkte Konfrontation mit den Schwächen der KI im Denken

ARC-AGI-2 existieren ARC-AGI-1 Mit der Einführung der KI sind die Anforderungen an die KI erheblich gestiegen, wobei eine Kombination aus hoher Anpassungsfähigkeit und Effizienz im Vordergrund steht. Durch die Analyse des Scheiterns der modernsten KI bei früheren Aufgaben hat dieARC-AGI-2 Einführung weiterer Aufgaben, die die Fähigkeit testen, Symbole zu interpretieren, kombinatorisch zu denken, kontextbezogene Regeln anzuwenden und vieles mehr. Diese Aufgaben sollen die KI dazu zwingen, über den oberflächlichen Musterabgleich hinaus auf eine tiefere Ebene der Abstraktion und des Denkens zu gelangen.

ARC-AGI-2-Bericht: ein düsteres Bild der Realität

Zuletzt veröffentlicht ARC-AGI Die Leaderboard-Daten zeichnen ein düsteres Bild der aktuellen KI-Fähigkeiten. Diese Daten bestätigen nicht nur, dass ARC-AGI-2 Das ist eine große Herausforderung und offenbart die große Kluft in der allgemeinen Denkfähigkeit und Effizienz der KI.

Übersicht der Leaderboard-Daten

KI-System	Organisation	System Typ	ARC-AGI-1	ARC-AGI-2	Kosten/Aufgabe	Code / Papier
Menschliches Gremium	Menschen	K.A.	98.0%	100.0%	$17.00	-
o3 (niedrig)*	OpenAI	CoT + Synthese	75.7%	4.0%	$200.00	📄
o1 (hoch)	OpenAI	CoT	32.0%	3.0%	$4.45	💻
ARChitects	ARC-Preis 2024	Benutzerdefiniert	56.0%	2.5%	$0.200	📄💻
o3-mini (mittel)	OpenAI	CoT	29.1%	1.7%	$0.280	💻
Icecuber	ARC-Preis 2024	Benutzerdefiniert	17.0%	1.6%	$0.130	💻
o3-mini (hoch)	OpenAI	CoT	35.0%	1.5%	$0.410	💻
Zwillinge 2.0 Blitzlicht	Google Internet-Unternehmen	Basis LLM	K.A.	1.3%	$0.004	💻
o1 (mittel)	OpenAI	CoT	31.0%	1.3%	$2.76	💻
Deepseek R1	Deepseek	CoT	15.8%	1.3%	$0.080	💻
Gemini-2.5-Pro-Exp-03-25 **	Google Internet-Unternehmen	CoT	12.5%	1.3%	K.A.	💻
o1-pro	OpenAI	CoT + Synthese	50.0%	1.0%	$39.00	-
Claude 3.7 (8K)	Anthropisch	CoT	21.2%	0.9%	$0.360	💻
Zwilling 1.5 Pro	Google Internet-Unternehmen	Basis LLM	K.A.	0.8%	$0.040	💻
GPT-4.5	OpenAI	Basis LLM	10.3%	0.8%	$2.10	💻
o1 (niedrig)	OpenAI	CoT	25.0%	0.8%	$1.44	💻
Claude 3.7 (16K)	Anthropisch	CoT	28.6%	0.7%	$0.510	💻
Claude 3.7 (1K)	Anthropisch	CoT	11.6%	0.4%	$0.140	💻
Claude 3.7	Anthropisch	Basis LLM	13.6%	0.0%	$0.120	💻
GPT-4o	OpenAI	Basis LLM	4.5%	0.0%	$0.080	💻
GPT-4o-mini	OpenAI	Basis LLM	K.A.	0.0%	$0.010	💻
o3-mini (niedrig)	OpenAI	CoT	11.0%	0.0%	$0.060	💻

(Anmerkung: * kennzeichnet vorläufige Schätzungen in der Tabelle.* kennzeichnet ein experimentelles Modell)*

Einblicke: die Warnung hinter den Daten

Mensch und KI: eine unüberwindbare Kluft
Nichts ist auffälliger als der krasse Gegensatz zwischen menschlicher und KI-Leistung. Unter ARC-AGI-2 On erreichte das menschliche Team eine perfekte Punktzahl von 100%, und das beste KI-System - die OpenAI (in Form eines Nominalausdrucks) o3 (low)mit einem Wert von nur 4,0%. Andere bekannte Modelle, wie das Gemini 2.0 FlashundDeepseek R1 usw., alle mit Werten um 1,3%. Noch alarmierender ist die Tatsache, dass die Claude 3.7undGPT-4oundGPT-4o-mini Diese Base Large Language Models (Base LLMs), die sich in anderen Bereichen bewährt haben, wurden in der ARC-AGI-2 Die Punktzahl für das Spiel ging direkt auf Null. Dies zeigt unerbittlich, dass die KI trotz ihrer unglaublichen Fähigkeiten bei bestimmten Aufgaben dem Menschen grundsätzlich unterlegen ist, wenn es um neuartige Probleme geht, die flexible, abstrakte und verallgemeinerte Denkfähigkeiten erfordern.
Von AGI-1 zu AGI-2: Die Klippe der KI-Fähigkeit
Fast alle KI-Systeme, die an dem Test teilnahmen, haben nach dem Start mit der ARC-AGI-1 Übergang ARC-AGI-2 In der Zwischenzeit ist die Leistung stark gesunken. Zum Beispiel, dieo3 (low) ist von 75,71 TP3T auf 4,01 TP3T gesunken.o1-pro von etwa 50% bis 1,0%.ARChitects von 56,01 TP3T auf 2,51 TP3T. Dieses allgemeine Phänomen deutet stark darauf hin, dass dieARC-AGI-2 Es geht erfolgreich auf die "Schmerzpunkte" der derzeitigen KI-Methoden ein, ob sie nun auf CoT, Synthese oder anderen maßgeschneiderten Ansätzen beruhen, mit denen man nur schwer zurechtkommt. ARC-AGI-2 Die Argumentation Herausforderung dargestellt.
Systemtyp und Effizienz: hohe Kosten führen nicht zu hoher Intelligenz
Die Rangliste zeigt außerdem, welche Rolle die verschiedenen KI-Systemtypen bei der ARC-AGI-2 Leistungsunterschiede und gravierende Effizienzprobleme auf der
- CoT + Synthese-System (o3 (low), o1-pro) erzielten die relativ höchsten KI-Werte (4,0% und 1,0%), allerdings zu überraschend hohen Kosten ($200 bzw. $39 pro Aufgabe). Dies deutet darauf hin, dass komplexes Denken plus Suchstrategien zwar in der Lage sind, ein wenig Punkte "herauszuquetschen", aber extrem ineffizient sind.
- Reines CoT-System Die Leistungen waren uneinheitlich, wobei die Ergebnisse im Allgemeinen zwischen 1%-3% lagen und die Kosten zwischen einigen Cents und einigen Dollar schwankten. Dies scheint darauf hinzudeuten, dass CoT allein nicht ausreicht, um die Herausforderung zu meistern.
- Basis-LLM (Großes Sprachmodell) (GPT-4.5, Gemini 1.5 Pro, Claude 3.7, GPT-4o) war ein Debakel, mit Ergebnissen von 0% oder nahe daran, was die Idee, dass "Größe alles ist", deutlich widerlegt, zumindest im Fall von ARC-AGI Dies gilt für den gemessenen Aspekt der allgemeinen fluiden Intelligenz.
- Maßgeschneiderte Systeme (ARChitects, Icecuber) als ARC Prize 2024 Produkt, das vergleichbare oder sogar leicht bessere Ergebnisse (2,5%, 1,6%) als andere KI-Systeme bei sehr geringen Kosten (~$0,1-$0,2 pro Aufgabe) erzielt. Dies könnte darauf hindeuten, dass gezielte, leichtgewichtige Algorithmen oder Architekturen ein größeres Potenzial für die Lösung dieser Art von Problemen haben als große, universell einsetzbare Modelle, und unterstreicht den Wert offener Wettbewerbe und gemeinschaftlicher Innovation.
Krise der Effizienz: Intelligenz kann nicht nur aus Ergebnissen bestehen
ARC Prize Die Einbeziehung von "Kosten/Aufgabe" als Schlüsselkennzahl in die Rangliste ist von Bedeutung. Die Daten zeigen, dass selbst die leistungsstärkste KI (o3 (low) erhalten 4%), seine Kosten pro Aufgabe ($200) sind auch mehr als zehnmal so hoch wie die des Menschen ($17 erhalten 100%). Während einige kostengünstige Modelle wie Gemini 2.0 FlashDies steht in krassem Gegensatz zur KI, die entweder sehr schlecht abschneidet oder kostspielig ist oder beides, obwohl sie sehr geringe Kosten hat ($0,004) und nur 1,3% erreicht. Bei der Intelligenz geht es nicht darum, um jeden Preis die richtige Antwort zu erhalten; Effizienz ist eine inhärente Eigenschaft. Derzeit ist die KI ARC-AGI-2 Die oben dargestellte "Kapazitätskosten"-Kurve offenbart zweifellos eine tiefgreifende "Effizienzkrise".

Zusammensetzung des Datensatzes und Einzelheiten zum Wettbewerb

ARC-AGI-2 Enthält kalibrierte Trainings- und Evaluierungssets nach dem Vorbild von pass@2 Wertungsmechanismus. Zu den wichtigsten Änderungen gehören die Erhöhung der Anzahl der Aufgaben, die Entfernung von Aufgaben, die für Brute-Force anfällig sind, die Kalibrierung des Schwierigkeitsgrads auf der Grundlage menschlicher Tests und die Entwicklung gezielter neuer Aufgaben.

Wettbewerb um den ARC-Preis 2025 gestartet: Millionen Dollar Belohnung für neue Ideen

Mit diesem düsteren Zeugnis wird dieARC Prize 2025 Der Wettbewerb fand statt in Kaggle Die Plattform ist live (26. März - 3. November) und bietet ein Preisgeld von insgesamt 1 Million Dollar. Die Wettbewerbsumgebung begrenzt die API-Nutzung und die Rechenressourcen (~50 USD/Einreichung) und schreibt vor, dass die Gewinner ihre Lösungen als Open Source bereitstellen. Dies unterstreicht noch einmal die Notwendigkeit von Effizienz und Innovation.

Die wichtigsten Punkte des Wettbewerbs im Jahr 2025 im Vergleich zu 2024 werden seinÄnderungsprotokollDarunter: die Verwendung von ARC-AGI-2 Datensätze, ein neuer Berichterstattungsmechanismus für die Bestenliste, erweiterte Anforderungen an Open Source, Verdoppelung der Rechenressourcen und zusätzliche Maßnahmen gegen Überanpassung.

Fazit: Ein neues Paradigma ist dringend erforderlich, um echte Durchbrüche zu erzielen

ARC-AGI-2 Die Daten der Bestenliste dienen als Spiegel, der die Grenzen der derzeitigen KI in Bezug auf allgemeine Schlussfolgerungen und Effizienz deutlich widerspiegelt. Sie erinnern uns daran, dass der Weg zur KI bei weitem nicht geradlinig ist und dass die bloße Skalierung von Modellen oder die Erhöhung von Rechenressourcen möglicherweise nicht ausreicht, um die vor uns liegende Kluft zu überwinden. Echte Durchbrüche erfordern möglicherweise neue Ideen, andere Architekturen und vielleicht sogar Innovatoren von außerhalb der großen Labors.ARC Prize 2025 Es ist eine solche Plattform, die ein neues Paradigma erfordert.

AI-Nachrichten

Der Artikel ist urheberrechtlich geschützt und darf nicht ohne Genehmigung vervielfältigt werden.

Amazon All in AI Agent: der nächste Wachstumsbereich für AWS?

AI-Nachrichten

vor 5 Monaten

01.3K

DeepSeek: von den Medien ignorierte Themen

AI-Nachrichten

vor 6 Monaten

01.2K

Der Autor des OpenManus-Kerns erzählt: Wie man das Agent-Framework in drei Stunden fertigstellt!

AI-Nachrichten

vor 5 Monaten

01.4K

WikiTok：当维基百科穿上“抖音”的皮——空有想法的半成品，能否靠AI逆天改命？

WikiTok: Wenn Wikipedia sich die Haut von "Shakeology" überzieht - einem unausgereiften Produkt mit einer leeren Idee - kann es sich dann auf KI verlassen, um sein Schicksal zu ändern?

AI-Nachrichten

vor 6 Monaten

01K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

ARC-AGI-2 Ergebnisse enthüllt: Waterloo für alle KI-Modelle - Denkfähigkeiten

Eine neue Herausforderung: ARC-AGI-2, gebaut, um die Schwächen der KI aufzudecken

Designphilosophie: Konzentration auf die Intelligenzlücke, wo Menschen einfach und KI schwierig sind

ARC-AGI-2: Eskalierender Schwierigkeitsgrad, direkte Konfrontation mit den Schwächen der KI im Denken

ARC-AGI-2-Bericht: ein düsteres Bild der Realität

Zusammensetzung des Datensatzes und Einzelheiten zum Wettbewerb

Fazit: Ein neues Paradigma ist dringend erforderlich, um echte Durchbrüche zu erzielen

NVIDIA veröffentlicht AI-Q Blueprint, der KI-Agenten miteinander verbindet, um die Zukunft der Arbeit zu gestalten

AI Website Gebäude Dark Horse Lovable: 0 bis $ 17M ARR in drei Monaten

Ähnliche Artikel

Amazon All in AI Agent: der nächste Wachstumsbereich für AWS?

DeepSeek: von den Medien ignorierte Themen

Der Autor des OpenManus-Kerns erzählt: Wie man das Agent-Framework in drei Stunden fertigstellt!

WikiTok: Wenn Wikipedia sich die Haut von "Shakeology" überzieht - einem unausgereiften Produkt mit einer leeren Idee - kann es sich dann auf KI verlassen, um sein Schicksal zu ändern?

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

ARC-AGI-2 Ergebnisse enthüllt: Waterloo für alle KI-Modelle - Denkfähigkeiten

Eine neue Herausforderung: ARC-AGI-2, gebaut, um die Schwächen der KI aufzudecken

Designphilosophie: Konzentration auf die Intelligenzlücke, wo Menschen einfach und KI schwierig sind

ARC-AGI-2: Eskalierender Schwierigkeitsgrad, direkte Konfrontation mit den Schwächen der KI im Denken

ARC-AGI-2-Bericht: ein düsteres Bild der Realität

Zusammensetzung des Datensatzes und Einzelheiten zum Wettbewerb

Fazit: Ein neues Paradigma ist dringend erforderlich, um echte Durchbrüche zu erzielen

NVIDIA veröffentlicht AI-Q Blueprint, der KI-Agenten miteinander verbindet, um die Zukunft der Arbeit zu gestalten

AI Website Gebäude Dark Horse Lovable: 0 bis $ 17M ARR in drei Monaten

Ähnliche Artikel

Amazon All in AI Agent: der nächste Wachstumsbereich für AWS?

DeepSeek: von den Medien ignorierte Themen

Der Autor des OpenManus-Kerns erzählt: Wie man das Agent-Framework in drei Stunden fertigstellt!

WikiTok: Wenn Wikipedia sich die Haut von "Shakeology" überzieht - einem unausgereiften Produkt mit einer leeren Idee - kann es sich dann auf KI verlassen, um sein Schicksal zu ändern?

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel