o3-mini vernichtet DeepSeek R1: Ein Python-Programm, das fast 4 Millionen Aufrufe generiert hat

AI-NachrichtenGeschrieben vor 6 Monaten AI-Austauschkreis

1.5K 00

Die Schlagzeilen in der KI-Welt lauten DeepSeek Nach zehn Tagen der Vertragsverhandlungen hat sich OpenAI endlich hingesetzt und eine neue Inferenzmodellserie, o3-mini, auf den Markt gebracht, die nicht nur zum ersten Mal Inferenzmodelle für freie Nutzer zugänglich macht, sondern auch die Kosten um den Faktor 15 im Vergleich zur vorherigen o1-Serie reduziert.

OpenAI behauptet außerdem, dass dies das neueste und kostengünstigste Modell in seiner Familie von Inferenzmodellen ist:

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Es wurde gerade erst auf den Markt gebracht, und einige Internetnutzer können es kaum erwarten, es mit den großen Modellen aus einheimischer Produktion zu vergleichen, die die Welt der großen Modelle erobern. DeepSeek R1 Es wurden Vergleiche angestellt.
Vor einiger Zeit war die KI-Gemeinschaft davon besessen, DeepSeek R1 zu verwenden, um mit anderen (Inferenz-)Modellen in dieser Aufgabe zu konkurrieren: "Schreibe ein Python-Skript, das einen Ball innerhalb einer bestimmten Form hüpfen lässt. Lass die Form langsam rotieren und sorge dafür, dass der Ball innerhalb der Form bleibt."
Dieser Test mit einem simulierten hüpfenden Ball ist eine klassische Programmieraufgabe. Er entspricht einem Algorithmus zur Kollisionserkennung, bei dem das Modell erkennen muss, wann zwei Objekte (z. B. ein Ball und die Seite einer Form) zusammenstoßen. Unsachgemäß geschriebene Algorithmen können offensichtliche physikalische Fehler aufweisen.
Während DeepSeek R1 die nationalen und internationalen Suchanfragen eroberte und amerikanische Cloud-Computing-Plattformen wie Microsoft, NVIDIA und Amazon sich um die Einführung von R1 bemühten, konnte R1 auch OpenAI o1 pro in dieser Aufgabe schlagen.
nochmal schauen Claude 3.5 Sonnet und Googles Zwillinge Mit 1,5 Pro-Ergebnissen ist das Open-Source-Modell von DeepSeek tatsächlich mehr als eine Stufe höher.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Doch in o3-mini Nach der Inbetriebnahme scheint sich das Blatt über Nacht gewendet zu haben, mit Beiträgen wie diesem, in dem behauptet wird, dass der OpenAI o3-mini den DeepSeek R1 geschlagen hat, der inzwischen fast 4 Millionen Besucher angezogen hat.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Der Entwickler verwendete die Aufforderung: "Schreiben Sie ein Python-Programm, das einen Ball zeigt, der in einem sich drehenden Sechseck abprallt. Der Ball soll von der Schwerkraft und der Reibung beeinflusst werden, und er muss realistisch an den rotierenden Wänden abprallen. Der Ball soll der Schwerkraft und der Reibung unterliegen und muss realistisch an den rotierenden Wänden abprallen".
Lassen Sie also o3-mini und DeepSeek R1 jeweils ein Python-Programm für einen Ball schreiben, der in einem rotierenden Sechseck springt, wobei der Ball den Auswirkungen von Schwerkraft und Reibung folgt. Die endgültige Darstellung sieht wie folgt aus:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Was die Effekte angeht, so bringt der o3-mini die Kollisions- und Abpralleffekte viel besser zur Geltung. Vom Verständnis der Schwerkraft und der Reibung her scheint die DeepSeek R1-Version des Balls von der Newtonschen Sargplatte etwas überfordert zu sein und wird überhaupt nicht von der Schwerkraft gesteuert.
Dies ist kein Einzelfall, denn der Mitbegründer von @hyperbolic_labs, Yuchen Jin, entdeckte dieses Problem ebenfalls, indem er die Eingabeaufforderung in DeepSeek R1 bzw. o3-mini eintrug: write a python script of a ball bouncing inside a tesseract (write write a Python script of a ball bounce inside a tesseract).
Jeder Scheitelpunkt eines vierdimensionalen Hyperwürfels grenzt an vier Zacken, und jeder Zacken verbindet zwei Würfel miteinander. Die Geometrie in vier Dimensionen liegt jenseits der intuitiven Wahrnehmung des Menschen. Wenn man diese Beschreibungen hört, kann es schwierig sein, sich vorzustellen, wie ein vierdimensionaler Hyperwürfel aussieht.
Und o3mini weist nicht nur eine stabile Geometrie auf, sondern der Ball springt auch in vier Dimensionen mit einer flexibleren Flugbahn, mit dem perkussiven Gefühl, die Seite eines Würfels zu treffen.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 DeepSeek R1 scheint die Form des vierdimensionalen Hyperwürfels nicht gut genug zu verstehen. Gleichzeitig scheint die Flugbahn der Kugel darin etwas seltsam zu sein, mit einem Gefühl des "Flatterns".
Nach Angaben von Yuchen Jin hat er es mehrmals versucht, und alle Versuche mit DeepSeek R1 waren schlechter als der o3-mini für den Einmalgebrauch, wie z. B. der unten gezeigte, bei dem der Ball liegen geblieben ist.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Das Herzstück der Maschine ist auch ein persönlicher Test, der gleichen Pass@1 Test, DeepSeek R1 dieses Mal gibt es sowohl den Ball und geometrischen Rahmen, und auch der Ball wird die Farbe der Farbe zu ändern, leider ist es die vierdimensionale Hyperwürfel in dreidimensionale räumliche Koordinatenachsen vereinfacht.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Die Leistung von o3-mini ist ein bisschen wie eine "Käufershow". Natürlich gibt Yuchen Jin genau die gleichen Aufforderungen ein, aber warum kann o3-mini nicht dasselbe tun? Warum kann o3-mini nicht die oben gezeigte "Verkäufershow" abliefern?
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Es scheint, dass DeepSeek R1 kein kompletter Fehlschlag für o3-mini ist, wenn es darum geht, eine Prozedur zum Prellen des Balls innerhalb des geometrischen Rahmens zu erzeugen.
AIGC-Praktiker @myapdx hat o3-mini und DeepSeek R1 mit einer komplexeren Aufgabe dieser Art getestet: Schreiben Sie ein p5.js-Skript, das 100 farbige Bälle simuliert, die in einer Kugel hüpfen. Jeder Ball sollte eine verblassende Trajektorie hinterlassen, die seinen nächsten Weg anzeigt. Die Containerkugel sollte langsam rotieren. Achten Sie darauf, dass Sie eine korrekte Kollisionserkennung implementieren, damit die Bälle innerhalb der Kugel bleiben.
Der o3-mini funktioniert wie folgt:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 So viele Anforderungen an das Stichwort: Bouncing innerhalb der Kugel, Hinterlassen einer verblassenden Spur, langsame Rotation des Containers ..... .o3-mini sind alle perfekt erfüllt.
Und der DeepSeek R1 scheint auch nicht schlechter geworden zu sein:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Yuchen Jin und @myapdx erklärten in ihren Beiträgen, dass die Aufgabe davon abhängt, wie das Modell die Gesetze der realen Physik versteht. Die Modelle müssen ihr Verständnis von Sprache, Geometrie, Physik und Programmierung kombinieren, um zu den endgültigen Simulationsergebnissen zu gelangen. Aus den Ergebnissen der ersten beiden Runden geht hervor, dass o3-mini das Potenzial hat, das beste große Modell für Physik zu sein.
In der Zwischenzeit hat OpenAI im gestrigen Release-Blog hervorgehoben, dass o3-mini-low bei wissenschaftlichen Problemen auf PhD-Niveau besser abschneidet als o1-mini. o3-mini-high schneidet vergleichbar gut ab wie o1, mit signifikanten Verbesserungen bei Problemen auf PhD-Niveau in Biologie, Chemie und Physik.
Das Verständnis von Schwerkraft und Reibung beim Aufprall eines kleinen Balls ist für den Menschen nicht schwer, aber im Bereich der Modellierung großer Sprachen war diese Fähigkeit, "Weltmodelle" des physikalischen Zustands von Objekten zu verstehen, bis vor kurzem kein wirklicher Durchbruch.
Es gibt auch Spekulationen darüber, dass der DeepSeek R1 manchmal mit nur einer Kugel programmiert wird. Könnte es sein, dass er zu viel nachdenkt? Ich frage mich, ob einer unserer Leser diese Erfahrung selbst gemacht hat? Diskutieren Sie mit.

AI-Nachrichten

Der Artikel ist urheberrechtlich geschützt und darf nicht ohne Genehmigung vervielfältigt werden.

Cline kündigte offiziell die kostenlose Nutzung von DeepSeek R1, V3 an!

AI-Nachrichten

vor 5 Monaten

02.1K

DeepSeek R1 vs o3-mini：谁才是2025年成本效益最高的推理模型？

DeepSeek R1 vs. o3-mini: Wer ist das kostengünstigste Inferenzmodell für 2025?

AI-Nachrichten

vor 6 Monaten

01.5K

英伟达发布个人AI超级计算机：NVIDIA Project DIGITS，能运行2000亿参数的大模型

NVIDIA stellt einen persönlichen KI-Supercomputer vor: NVIDIA Project DIGITS, der große Modelle mit 200 Milliarden Parametern ausführen kann

AI-Nachrichten

vor 7 Monaten

01.4K

Perplexity veröffentlicht Deep Research: Dramatische Verbesserung der Recherche-Effizienz

AI-Nachrichten

vor 6 Monaten

01.5K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

o3-mini vernichtet DeepSeek R1: Ein Python-Programm, das fast 4 Millionen Aufrufe generiert hat

Top 5 KI-Inferenzplattformen, die eine kostenlose Vollversion von DeepSeek-R1 verwenden

Es wird gezeigt, dass:RL die SFT beim Erlernen von verallgemeinerungsfähigem Wissen übertrifft, insbesondere bei multimodalen Aufgaben, die eine stärkere Fähigkeit zum logischen Denken und zur visuellen Erkennung aufweisen

Ähnliche Artikel

Cline kündigte offiziell die kostenlose Nutzung von DeepSeek R1, V3 an!

DeepSeek R1 vs. o3-mini: Wer ist das kostengünstigste Inferenzmodell für 2025?

NVIDIA stellt einen persönlichen KI-Supercomputer vor: NVIDIA Project DIGITS, der große Modelle mit 200 Milliarden Parametern ausführen kann

Perplexity veröffentlicht Deep Research: Dramatische Verbesserung der Recherche-Effizienz

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

o3-mini vernichtet DeepSeek R1: Ein Python-Programm, das fast 4 Millionen Aufrufe generiert hat

Top 5 KI-Inferenzplattformen, die eine kostenlose Vollversion von DeepSeek-R1 verwenden

Es wird gezeigt, dass:RL die SFT beim Erlernen von verallgemeinerungsfähigem Wissen übertrifft, insbesondere bei multimodalen Aufgaben, die eine stärkere Fähigkeit zum logischen Denken und zur visuellen Erkennung aufweisen

Ähnliche Artikel

Cline kündigte offiziell die kostenlose Nutzung von DeepSeek R1, V3 an!

DeepSeek R1 vs. o3-mini: Wer ist das kostengünstigste Inferenzmodell für 2025?

NVIDIA stellt einen persönlichen KI-Supercomputer vor: NVIDIA Project DIGITS, der große Modelle mit 200 Milliarden Parametern ausführen kann

Perplexity veröffentlicht Deep Research: Dramatische Verbesserung der Recherche-Effizienz

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel