Step Star lance Step R-mini : les modèles de raisonnement ne seront plus jamais biaisés par la littérature et les sciences !

Nouvelles de l'IAPosté il y a 8 mois Cercle de partage de l'IA

7.4K 00

c'est étoiles sautantes Le premier modèle d'inférence de la famille des modèles Step.

Les modèles d'inférence de type OpenAI o1 sont enfin disponibles dans le pays.
Step Star, membre de "Six Little Tigers", vient de sortir un modèle de dernière génération : Step Reasoner mini ("Step R-mini" en abrégé). Il s'agit du premier modèle d'inférence de la famille des modèles de la série Step.

阶跃星辰发布Step R-mini！推理模型从此不再文理偏科
Le nouveau modèle excelle dans la planification proactive, l'expérimentation et la réflexion, et est capable de fournir des réponses précises et fiables aux utilisateurs grâce au mécanisme de réflexion lente et de validation itérative de la logique.

De plus, elle excelle dans la résolution de problèmes complexes tels que le raisonnement logique, le code et les mathématiques grâce à sa capacité de raisonnement extra-longue, ainsi que dans des domaines polyvalents tels que la création littéraire. Ou "à la fois la littérature et la science", selon les propres termes de l'Étoile bondissante de l'ordre.

Selon les données de référence publiées par Step Star, le Step R-mini atteint le SOTA sur les benchmarks mathématiques AIME 2024 et Math500, le Math500 obtenant 2 points de plus que le o1-mini. Le Step Reasoner mini écrit également très bien le code : il surpasse le o1-mini sur le LiveCodeBench. Il surpasse o1-preview dans les tâches de codage.

Comment cela fonctionne-t-il ? Machine Mind a appris des personnes impliquées dans Order Leap Star que le nouveau modèle a un contenu "RL" élevé et qu'il se généralise donc mieux. En outre, ils ont également mis à l'échelle de nombreux aspects tels que la qualité des données, le calcul au moment du test, la taille du modèle, etc. et ont une fois de plus vérifié que le nouveau modèle était plus efficace. Loi d'échelle La validité de la

En plus du modèle de raisonnement verbal, ils construisent également un modèle de raisonnement visuel capable de raisonner de manière multimodale. De plus, la source a souligné que ce modèle de raisonnement multimodal "est vraiment un raisonnement dans le domaine visuel", c'est-à-dire un raisonnement sur des diagrammes, "pas seulement regarder des diagrammes mais seulement raisonner dans le domaine textuel".

Il semble que l'ordre Leaping Star ait franchi une nouvelle étape sur sa feuille de route.

Comment est fabriqué Step Reasoner mini ?

Selon Step R-mini, la conception et le développement de Step R-mini suivent le paradigme actuel de développement de modèles de raisonnement. Plus précisément, il permet de "penser lentement" en augmentant la quantité de calculs dans la phase de raisonnement et en incorporant des techniques telles que l'enchaînement des pensées. Le système est capable de planifier, d'expérimenter et de réfléchir de manière proactive en fonction de la complexité de la tâche, fournissant ainsi un retour d'information précis et fiable par le biais d'un mécanisme logique validé de manière itérative.

Selon Step Reasoner, l'un des points forts de Step Reasoner mini est la réalisation de "la littérature et de la science". Plus précisément, en plus de répondre avec précision aux questions de mathématiques, de code et de raisonnement logique, Step Reasoner mini est également capable de créer des contenus littéraires et d'effectuer des tâches de chat quotidiennes. Ce résultat est obtenu grâce à un apprentissage par renforcement à grande échelle utilisant des algorithmes d'apprentissage par renforcement On-Policy.

En outre, l'amélioration de la capacité de raisonnement du modèle ne peut être séparée de l'adhésion de Step Star aux principes de la loi de mise à l'échelle. Cela comprend les points suivants :

Apprentissage par renforcement : De l'apprentissage par imitation à l'apprentissage par renforcement, de la préférence humaine au retour d'information environnemental, StepStar adhère à l'apprentissage par renforcement, l'apprentissage par renforcement étant la principale phase de formation de l'itération du modèle.
Amélioration de la qualité des données : La qualité des données est la priorité absolue. En partant du principe qu'il faut assurer la qualité des données, StepStar continue d'étendre la distribution et l'échelle des données afin de fournir une garantie solide pour la formation à l'apprentissage par renforcement.
Mise à l'échelle du calcul test-temps : en mettant fermement en œuvre la mise à l'échelle du temps de formation en même temps que la mise à l'échelle du temps de test, Step Star a constaté que le paradigme du système 2 permettait à Step Reasoner mini d'atteindre 50 000 jetons de réflexion sur le raisonnement de tâches très complexes. Step Reasoner mini permet d'atteindre 50 000 jetons de réflexion sur des tâches très complexes, ce qui permet d'approfondir la réflexion.
Mise à l'échelle de la taille du modèle : C'est la façon la plus classique de mettre à l'échelle. Selon Step Star, insister sur la taille du modèle L'échelonnement est toujours au cœur du Système-2, et nous sommes déjà en train de développer un modèle d'inférence Step Reasoner plus intelligent, plus polyvalent et plus complet.

Comment fonctionne un test en conditions réelles ?

Puisque Step Reasoner mini prétend être "lettré", commençons par le tester avec une question lettrée : dans "Dreaming of Travelling to Tianmu Yinliu Farewell", quel vers est un nombre et son multiple dans la même phrase ? Cette question n'est pas difficile, mais elle exige de l'IA qu'elle se souvienne du poème et le comprenne, ainsi que des notions d'arithmétique de base. Bien que de nombreuses personnes pensent que la réponse devrait être "Le toit est à 48 000 pieds de haut, et il est sur le point de tomber au sud-est", la réponse est en fait "48 000 pieds de haut". Mais 48 000 est un nombre distinct, et il n'y a pas de multiple de ce nombre dans cette phrase, donc il ne compte pas. Step Reasoner mini a également confirmé cela dans son raisonnement, et a finalement trouvé la bonne réponse : "Le chemin d'un millier de rochers et de dix mille virages est incertain".

Voici un aperçu d'une question de mathématiques du GCSE de 2024 :

Comme on peut le voir, Step Reasoner mini effectue un tour de réflexion pour obtenir la bonne réponse. On peut également voir que le modèle effectue deux autres tours de réflexion après le premier tour de réflexion pour vérifier l'exactitude de la réponse. Lors des tests en conditions réelles, nous avons constaté que si les réponses du premier et du deuxième tour ne correspondaient pas, Step Reasoner mini continuait à effectuer plusieurs tours de réflexion jusqu'à ce qu'il obtienne la bonne réponse.

La question suivante est une question de raisonnement logique :

Comme vous pouvez le constater, Step Reasoner mini organise systématiquement les relations entre plusieurs personnes dans la question et présente la réponse finale sous une forme très claire.

Qu'en est-il des tâches simples relevant des "arts libéraux" ? Par exemple, si l'on demande au modèle de traduire "I'm not in danger, I'm the danger", que ferait-il ? Il s'avère que Step Reasoner mini, après de nombreuses tentatives, a fini par trouver une traduction plutôt dominante : "I'm not in danger, I'm the danger" (je ne suis pas en danger, je suis le danger). Ce qui est encore plus intéressant, c'est qu'en y réfléchissant, il a également fait référence à une réplique similaire tirée de The Dark Knight.

De plus, nous savons que Xiaohongshu a récemment connu un afflux d'utilisateurs étrangers, et l'un de leurs principaux besoins est de trouver des noms chinois. "Step Reasoner mini peut-il les aider ?

Comme vous pouvez le voir, pour les questions en anglais, Step Reasoner mini peut passer en douceur au mode de réflexion en anglais, et en même temps, il peut aussi intercaler une réflexion sur la signification du chinois. Quant au nom "Starry" qu'il a finalement reçu, il est toujours aussi agréable.

Œuf : les modèles de raisonnement visuel sont aussi en route

D'après l'annonce faite aujourd'hui, outre le modèle de raisonnement verbal, Step Star a également sorti un petit œuf : il construit un modèle de raisonnement visuel afin d'intégrer les capacités de raisonnement dans des modèles plus vastes de formes plus interactives.

Pour le problème de raisonnement dans des scènes visuelles complexes, Step Star introduit une lenteur de perception et de traitement.raisonnement spatialL'idée est de transférer l'échelle de temps de test de l'espace textuel à l'espace visuel, et de réaliser la pensée lente spatiale dans l'espace visuel.

Quelle est son efficacité ? Voir l'affichage :

1. répondre aux questions de la figure

2. lequel puis-je atteindre à partir de la flèche bleue ?

3) Quels sont les nombres correspondant à chacune de ces boules ?