Die Schlagzeilen in der KI-Welt lauten DeepSeek Nach zehn Tagen der Vertragsverhandlungen hat sich OpenAI endlich hingesetzt und eine neue Inferenzmodellserie, o3-mini, auf den Markt gebracht, die nicht nur zum ersten Mal Inferenzmodelle für freie Nutzer zugänglich macht, sondern auch die Kosten um den Faktor 15 im Vergleich zur vorherigen o1-Serie reduziert.
OpenAI behauptet außerdem, dass dies das neueste und kostengünstigste Modell in seiner Familie von Inferenzmodellen ist:
Es wurde gerade erst auf den Markt gebracht, und einige Internetnutzer können es kaum erwarten, es mit den großen Modellen aus einheimischer Produktion zu vergleichen, die die Welt der großen Modelle erobern. DeepSeek R1 Es wurden Vergleiche angestellt.
Vor einiger Zeit war die KI-Gemeinschaft davon besessen, DeepSeek R1 zu verwenden, um mit anderen (Inferenz-)Modellen in dieser Aufgabe zu konkurrieren: "Schreibe ein Python-Skript, das einen Ball innerhalb einer bestimmten Form hüpfen lässt. Lass die Form langsam rotieren und sorge dafür, dass der Ball innerhalb der Form bleibt."
Dieser Test mit einem simulierten hüpfenden Ball ist eine klassische Programmieraufgabe. Er entspricht einem Algorithmus zur Kollisionserkennung, bei dem das Modell erkennen muss, wann zwei Objekte (z. B. ein Ball und die Seite einer Form) zusammenstoßen. Unsachgemäß geschriebene Algorithmen können offensichtliche physikalische Fehler aufweisen.
Während DeepSeek R1 die nationalen und internationalen Suchanfragen eroberte und amerikanische Cloud-Computing-Plattformen wie Microsoft, NVIDIA und Amazon sich um die Einführung von R1 bemühten, konnte R1 auch OpenAI o1 pro in dieser Aufgabe schlagen.
nochmal schauen Claude 3.5 Sonnet und Googles Zwillinge Mit 1,5 Pro-Ergebnissen ist das Open-Source-Modell von DeepSeek tatsächlich mehr als eine Stufe höher.
Doch in o3-mini Nach der Live-Schaltung scheint sich das Blatt über Nacht gewendet zu haben, mit Beiträgen wie diesem, in dem behauptet wird, dass der OpenAI o3-mini den DeepSeek R1, der inzwischen fast 4 Millionen Follower hat, geschlagen hat.
Der Entwickler verwendete die Aufforderung: "Schreiben Sie ein Python-Programm, das einen Ball zeigt, der in einem sich drehenden Sechseck abprallt. Der Ball soll von der Schwerkraft und der Reibung beeinflusst werden, und er muss realistisch an den rotierenden Wänden abprallen. Der Ball soll der Schwerkraft und der Reibung unterliegen und muss realistisch an den rotierenden Wänden abprallen".
Lassen Sie also o3-mini und DeepSeek R1 jeweils ein Python-Programm für einen Ball schreiben, der in einem rotierenden Sechseck springt, wobei der Ball den Auswirkungen von Schwerkraft und Reibung folgt. Die endgültige Darstellung sieht wie folgt aus:
Was die Effekte angeht, so bringt der o3-mini die Kollisions- und Abpralleffekte viel besser zur Geltung. Vom Verständnis der Schwerkraft und der Reibung her scheint die DeepSeek R1-Version des Balls von der Newtonschen Sargplatte etwas überfordert zu sein und wird überhaupt nicht von der Schwerkraft gesteuert.
Dies ist kein Einzelfall, denn der Mitbegründer von @hyperbolic_labs, Yuchen Jin, entdeckte dieses Problem ebenfalls, indem er die Eingabeaufforderung in DeepSeek R1 bzw. o3-mini eintrug: write a python script of a ball bouncing inside a tesseract (write write a Python script of a ball bounce inside a tesseract).
Jeder Scheitelpunkt eines vierdimensionalen Hyperwürfels grenzt an vier Zacken, und jeder Zacken verbindet zwei Würfel miteinander. Die Geometrie in vier Dimensionen liegt jenseits der intuitiven Wahrnehmung des Menschen. Wenn man diese Beschreibungen hört, kann es schwierig sein, sich vorzustellen, wie ein vierdimensionaler Hyperwürfel aussieht.
Und o3mini weist nicht nur eine stabile Geometrie auf, sondern der Ball springt auch in vier Dimensionen mit einer flexibleren Flugbahn, mit dem perkussiven Gefühl, die Seite eines Würfels zu treffen.
DeepSeek R1 scheint die Form des vierdimensionalen Hyperwürfels nicht gut genug zu verstehen. Gleichzeitig scheint die Flugbahn der Kugel darin etwas seltsam zu sein, mit einem Gefühl des "Flatterns".
Nach Angaben von Yuchen Jin hat er es mehrmals versucht, und alle Versuche mit DeepSeek R1 waren schlechter als der o3-mini für den Einmalgebrauch, wie z. B. der unten gezeigte, bei dem der Ball liegen geblieben ist.
Das Herzstück der Maschine ist auch ein persönlicher Test, der gleichen Pass@1 Test, DeepSeek R1 dieses Mal gibt es sowohl den Ball und geometrischen Rahmen, und auch der Ball wird die Farbe der Farbe zu ändern, leider ist es die vierdimensionale Hyperwürfel in dreidimensionale räumliche Koordinatenachsen vereinfacht.
Die Leistung von o3-mini ist ein bisschen wie eine "Käufershow". Natürlich gibt Yuchen Jin genau die gleichen Aufforderungen ein, aber warum kann o3-mini nicht dasselbe tun? Warum kann o3-mini nicht die oben gezeigte "Verkäufershow" abliefern?
Es scheint, dass DeepSeek R1 kein kompletter Fehlschlag für o3-mini ist, wenn es darum geht, eine Prozedur zum Prellen des Balls innerhalb des geometrischen Rahmens zu erzeugen.
AIGC-Praktiker @myapdx hat o3-mini und DeepSeek R1 mit einer komplexeren Aufgabe dieser Art getestet: Schreiben Sie ein p5.js-Skript, das 100 farbige Bälle simuliert, die in einer Kugel hüpfen. Jeder Ball sollte eine verblassende Trajektorie hinterlassen, die seinen nächsten Weg anzeigt. Die Containerkugel sollte langsam rotieren. Achten Sie darauf, dass Sie eine korrekte Kollisionserkennung implementieren, damit die Bälle innerhalb der Kugel bleiben.
Der o3-mini funktioniert wie folgt:
So viele Anforderungen an das Stichwort: Bouncing innerhalb der Kugel, Hinterlassen einer verblassenden Spur, langsame Rotation des Containers ..... .o3-mini sind alle perfekt erfüllt.
Und der DeepSeek R1 scheint auch nicht schlechter geworden zu sein:
Was die Gründe für diese Diskrepanz angeht, so haben sowohl Yuchen Jin als auch @myapdx in ihren Beiträgen erwähnt, dass die Aufgabe davon abhängt, wie das Modell die physikalischen Gesetze der realen Welt versteht. Die Modelle müssen ihr Verständnis von Sprache, Geometrie, Physik und Programmierung kombinieren, um zu den endgültigen Simulationsergebnissen zu gelangen. Aus den Ergebnissen der ersten beiden Runden geht hervor, dass o3-mini das Potenzial hat, das beste große Modell für Physik zu sein.
In der Zwischenzeit hat OpenAI im gestrigen Release-Blog hervorgehoben, dass o3-mini-low bei wissenschaftlichen Problemen auf PhD-Niveau besser abschneidet als o1-mini. o3-mini-high schneidet vergleichbar gut ab wie o1, mit signifikanten Verbesserungen bei Problemen auf PhD-Niveau in Biologie, Chemie und Physik.
Das Verständnis von Schwerkraft und Reibung beim Aufprall eines kleinen Balls ist für den Menschen nicht schwer, aber im Bereich der Modellierung großer Sprachen war diese Fähigkeit, "Weltmodelle" des physikalischen Zustands von Objekten zu verstehen, bis vor kurzem kein wirklicher Durchbruch.
Es gibt auch Spekulationen darüber, dass der DeepSeek R1 manchmal mit nur einer Kugel programmiert wird. Könnte es sein, dass er zu viel nachdenkt? Ich frage mich, ob einer unserer Leser diese Erfahrung selbst gemacht hat? Diskutieren Sie mit.