dies ist springende Sterne Das erste Inferenzmodell der Step-Modellfamilie.
OpenAI o1-ähnliche Inferenzmodelle sind endlich im Land unterwegs.
Soeben hat Step Star, ein Mitglied der "Six Little Tigers", das Modell der neuesten Generation herausgebracht - den Step Reasoner mini (kurz "Step R-mini"). Dies ist das erste Inferenzmodell der Modellfamilie der Step-Serie.
Das neue Modell zeichnet sich durch proaktives Planen, Experimentieren und Nachdenken aus und ist in der Lage, den Nutzern durch den Mechanismus des langsamen Denkens und der iterativen Validierung der Logik genaue und zuverlässige Antworten zu geben.
Darüber hinaus zeichnet er sich durch seine extralange Denkfähigkeit bei der Lösung komplexer Probleme wie logisches Denken, Code und Mathematik aus, aber auch auf allgemeinen Gebieten wie dem literarischen Schaffen. Oder "sowohl Literatur als auch Wissenschaft", wie der Orden Leaping Star selbst sagt.
Nach den von Step Star veröffentlichten Benchmark-Daten erreicht der Step R-mini SOTA in den beiden Mathematik-Benchmarks AIME 2024 und Math500, wobei der Math500 2 Punkte mehr als der o1-mini erzielt. Der Step Reasoner mini schreibt auch sehr gut Code: Er übertrifft den o1-mini im LiveCodeBench LiveCodeBench und übertrifft den o1-preview bei Code-Aufgaben.
Wie funktioniert das alles? Das Herzstück der Maschine lernte von den Personen, die mit Step Star in Verbindung stehen, dass das neue Modell einen hohen Anteil an "RL" hat, so dass die Generalisierung besser ist. Darüber hinaus skalierten sie auch in vielen Aspekten wie Datenqualität, Berechnungen zum Testzeitpunkt, Modellgröße usw., was die Gültigkeit des Skalierungsgesetzes einmal mehr bestätigte.
Neben dem verbalen Denkmodell wird auch ein visuelles Denkmodell entwickelt, das zu multimodalem Denken fähig ist. Außerdem betonte die Quelle, dass es sich bei diesem multimodalen Denkmodell "wirklich um Denken im visuellen Bereich" handelt, d. h. um Denken auf Diagrammen, "nicht nur um das Betrachten von Diagrammen, sondern nur um Denken im textuellen Bereich".
Es scheint, dass Order Leaping Star einen weiteren Schritt auf seinem Fahrplan gemacht hat.
Wie wird der Step Reasoner mini hergestellt?
Laut Step R-mini folgt der Entwurf und die Entwicklung von Step R-mini dem aktuellen Mainstream-Paradigma der Entwicklung von Denkmodellen. Insbesondere wird "langsames Denken" erreicht, indem der Umfang der Berechnungen in der Argumentationsphase erhöht und Techniken wie die Gedankenverkettung einbezogen werden. Das System ist in der Lage, proaktiv zu planen, zu experimentieren und zu reflektieren, basierend auf der Komplexität der Aufgabe, und liefert somit genaues und zuverlässiges Feedback durch einen iterativ validierten Logikmechanismus.
Laut Step Reasoner ist eines der größten Highlights von Step Reasoner mini die Umsetzung von "sowohl Literatur als auch Wissenschaft". Konkret bedeutet dies, dass Step Reasoner mini nicht nur Mathe-, Code- und Logikfragen korrekt beantworten kann, sondern auch in der Lage ist, kreativ literarische Inhalte zu erstellen und tägliche Chat-Aufgaben zu lösen. Erreicht wird dies durch ein groß angelegtes Reinforcement-Learning-Training mit On-Policy Reinforcement-Learning-Algorithmen.
Darüber hinaus kann die Verbesserung der Fähigkeit zur Modellbildung nicht von der Einhaltung der Grundsätze des Skalierungsgesetzes durch Step Star getrennt werden. Dazu gehören die folgenden Punkte:
- Skalierendes Verstärkungslernen: Vom Nachahmungslernen bis zum Verstärkungslernen, von der menschlichen Präferenz bis zum Umweltfeedback, StepStar folgt dem skalierenden Verstärkungstraining, wobei das Verstärkungslernen die zentrale Trainingsphase der Modelliteration darstellt.
- Skalierung der Datenqualität: Die Datenqualität hat oberste Priorität. Unter der Prämisse der Sicherstellung der Datenqualität baut StepStar die Datenverteilung und Skalierung weiter aus, um eine solide Garantie für das Reinforcement-Learning-Training zu bieten.
- Skalierung der Testzeitberechnung: Durch die konsequente Umsetzung der Trainingszeit-Skalierung zusammen mit der Testzeit-Skalierung hat Step Star herausgefunden, dass das System 2-Paradigma es dem Step Reasoner mini ermöglicht, bei sehr komplexen Aufgaben 50.000 Denk-Token zu erreichen. Token bei sehr komplexen Aufgaben, was ein tieferes Denken ermöglicht.
- Skalierung der Modellgröße: Dies ist der klassischste Weg der Skalierung. Laut Step Star ist das Beharren auf der Modellgröße Skalierung immer noch das Herzstück von System-2, und wir entwickeln bereits ein intelligenteres, vielseitigeres und umfassenderes Step-Reasoner-Inferenzmodell.
Wie funktioniert ein Praxistest aus erster Hand?
Da Step Reasoner mini den Anspruch erhebt, "belesen" zu sein, wollen wir ihn zunächst mit einer belesenen Frage testen: In "Dreaming of Travelling to Tianmu Yinliu Farewell", welche Zeile ist eine Zahl und ihr Vielfaches im selben Satz? Das ist keine schwierige Frage, aber sie verlangt von der KI, dass sie sich an das Gedicht erinnert und es versteht, und sie muss auch Grundrechenarten beherrschen. Obwohl viele Leute denken, dass die Antwort lauten müsste: "Das Dach ist 48.000 Fuß hoch, und es ist im Begriff, nach Südosten zu fallen", lautet die Antwort eigentlich "48.000 Fuß hoch". Aber 48.000 ist eine eigene Zahl, und es gibt keine Vielfachen davon in diesem Satz, also zählt sie nicht. Step Reasoner mini hat dies in seiner Argumentation ebenfalls bestätigt und schließlich die richtige Antwort gefunden: "Der Weg von tausend Felsen und zehntausend Windungen ist ungewiss".
Hier ist ein Blick auf eine GCSE-Mathefrage aus dem Jahr 2024:
Wie man sieht, führt Step Reasoner mini eine Denkrunde durch, um die richtige Antwort zu erhalten. Es ist auch zu erkennen, dass das Modell nach der ersten Denkrunde zwei weitere Runden durchführt, um die Richtigkeit der Antwort zu überprüfen. Bei unseren Praxistests haben wir festgestellt, dass Step Reasoner mini mehrere Denkrunden durchführt, wenn die Antworten der ersten und zweiten Runde nicht übereinstimmen, bis er die richtige Antwort gefunden hat.
Als Nächstes folgt eine Frage zum logischen Denken:
Wie Sie sehen können, ordnet Step Reasoner mini systematisch die Beziehungen zwischen mehreren Personen in der Frage und präsentiert die endgültige Antwort in einer sehr klaren Form.
Was ist mit einfachen Aufgaben der "freien Künste"? Was würde das Modell zum Beispiel tun, wenn es "Ich bin nicht in Gefahr, ich bin die Gefahr" übersetzen soll? Es stellt sich heraus, dass Step Reasoner mini nach vielen Versuchen schließlich eine ziemlich anmaßende Übersetzung gefunden hat: "Ich bin nicht in Gefahr, ich bin die Gefahr". Noch interessanter ist, dass er sich bei seinen Überlegungen auch auf eine ähnliche Zeile aus The Dark Knight bezog.
Wir wissen auch, dass Xiaohongshu in letzter Zeit einen Zustrom ausländischer Nutzer erlebt hat, und eines ihrer Hauptbedürfnisse ist es, chinesische Namen zu finden. "Kann Step Reasoner mini ihnen dabei helfen?
Wie Sie sehen, kann Step Reasoner mini bei englischen Fragen nahtlos in den englischen Denkmodus umschalten, während er immer noch Gedanken zu chinesischen Bedeutungen einstreut. Was den Namen "Starry" angeht, den er schließlich bekommen hat, fühlt er sich immer noch gut an.
Ei: Auch visuelle Argumentationsmodelle sind auf dem Weg
Nach der heutigen Ankündigung hat Step Star neben dem verbalen Denkmodell auch ein kleines Ei veröffentlicht: Es wird ein visuelles Denkmodell entwickelt, um die Denkfähigkeit in ein größeres Modell mit interaktiveren Formen zu integrieren.
Für das Reasoning-Problem in komplexen visuellen Szenen führt Step Star eine langsame Wahrnehmung undräumliche ArgumentationDie Idee ist, Test-Time-Scaling vom textuellen Raum auf den visuellen Raum zu übertragen und Spatial-Slow-Thinking im visuellen Raum zu realisieren.
Wie wirksam ist sie? Siehe die Anzeige:
1. beantworten Sie die Fragen in der Abbildung
2. welche kann ich vom blauen Pfeil aus erreichen?
3) Welche Zahlen gehören zu jeder dieser Kugeln?