¡Step Star lanza Step R-mini! ¡Los modelos de razonamiento nunca volverán a estar sesgados por la literatura y la ciencia!

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

36.9K 00

esto es estrellas saltarinas El primer modelo de inferencia de la familia de modelos Step.

Los modelos de inferencia tipo OpenAI o1 por fin ruedan por el país.
Step Star, miembro de "Six Little Tigers", acaba de lanzar el modelo de última generación: Step Reasoner mini ("Step R-mini" para abreviar). Se trata del primer modelo de inferencia de la familia de modelos de la serie Step.

阶跃星辰发布Step R-mini！推理模型从此不再文理偏科
El nuevo modelo destaca en la planificación proactiva, la experimentación y la reflexión, y es capaz de dar respuestas precisas y fiables a los usuarios mediante el mecanismo del pensamiento lento y la validación iterativa de la lógica.

Además, destaca en la resolución de problemas complejos como el razonamiento lógico, el código y las matemáticas gracias a su capacidad de razonamiento extralargo, así como en campos de uso general como la creación literaria. O "tanto la literatura como la ciencia", según las propias palabras de la Orden Estrella Saltarina.

Según los datos de referencia publicados por Step Star, el Step R-mini alcanza el SOTA en las pruebas de matemáticas AIME 2024 y Math500, con 2 puntos más que el o1-mini en Math500. El Step Reasoner mini también escribe código muy bien: supera al o1-mini en LiveCodeBench. Supera a o1-preview en tareas de código.

¿Cómo funciona todo esto? Machine Mind aprendió de las personas implicadas en Order Leap Star que el nuevo modelo tiene un alto contenido de "RL" y, por tanto, generaliza mejor. Además, escalaron en varios aspectos como la calidad de los datos, el cálculo en el momento de la prueba, el tamaño del modelo, etc., y comprobaron una vez más que el Ley de escalado La validez de la

Además del modelo de razonamiento verbal, también están construyendo un modelo de razonamiento visual capaz de razonamiento multimodal. Además, la fuente subraya que este modelo de razonamiento multimodal "es realmente razonar en el dominio visual", es decir, razonar sobre diagramas, "no sólo mirar diagramas sino sólo razonar en el dominio textual".

Parece que Order Leaping Star ha dado un paso más en su hoja de ruta.

¿Cómo se fabrica el Step Reasoner mini?

Según Step R-mini, el diseño y desarrollo de Step R-mini sigue el paradigma dominante actual de desarrollo de modelos de razonamiento. En concreto, consigue un "pensamiento lento" aumentando la cantidad de cálculo en la fase de razonamiento e incorporando técnicas como el encadenamiento de pensamientos. El sistema es capaz de planificar, experimentar y reflexionar de forma proactiva en función de la complejidad de la tarea, proporcionando así información precisa y fiable a través de un mecanismo lógico validado iterativamente.

Según Step Reasoner, uno de los aspectos más destacados de Step Reasoner mini es la realización de "tanto literatura como ciencia". En concreto, además de responder con precisión a preguntas de matemáticas, código y razonamiento lógico, Step Reasoner mini también es capaz de completar de forma creativa la creación de contenidos literarios y las tareas diarias de chat. Esto se consigue mediante un entrenamiento de aprendizaje por refuerzo a gran escala que utiliza algoritmos de aprendizaje por refuerzo On-Policy.

Además, la mejora de la capacidad de razonamiento del modelo no puede separarse de la adhesión de Step Star a los principios de la Ley de Escalado. Esto incluye los siguientes puntos:

Aprendizaje por refuerzo escalonado: del aprendizaje por imitación al aprendizaje por refuerzo, de la preferencia humana a la retroalimentación ambiental, StepStar se adhiere al aprendizaje por refuerzo escalonado, con el aprendizaje por refuerzo como fase central de entrenamiento de la iteración del modelo.
Ampliación de la calidad de los datos: La calidad de los datos es la máxima prioridad. Bajo la premisa de garantizar la calidad de los datos, StepStar sigue ampliando la distribución y la escala de los datos para ofrecer una garantía sólida para el entrenamiento del aprendizaje por refuerzo.
Escalado del cálculo en tiempo de prueba: Al implementar firmemente el escalado en tiempo de entrenamiento junto con el escalado en tiempo de prueba, Step Star descubrió que el paradigma del Sistema 2 permite a Step Reasoner mini alcanzar los 50.000 think tokens en razonamientos de tareas muy complejas. en tareas muy complejas, lo que permite un razonamiento más profundo.
Escalar el tamaño del modelo: Esta es la forma más clásica de escalar. Según Step Star, insistir en el escalado del tamaño del modelo sigue siendo el núcleo de System-2, y ya estamos desarrollando un modelo de inferencia de Step Reasoner más inteligente, versátil y completo.

¿Cómo funciona una prueba real de primera mano?

Como Step Reasoner mini pretende ser "alfabetizado", empecemos por ponerlo a prueba con una pregunta alfabetizada: En "Soñando con viajar a la despedida de Tianmu Yinliu", ¿en qué línea hay un número y su múltiplo en la misma frase? No es una pregunta difícil, pero requiere que la IA recuerde y comprenda el poema, así como nociones básicas de aritmética. Aunque mucha gente piensa que la respuesta debería ser "El tejado está a 48.000 pies de altura, y está a punto de caer hacia el sureste", en realidad la respuesta es "48.000 pies de altura". Pero 48.000 es un número distinto, y no hay múltiplos de él en esta frase, así que no cuenta. Step Reasoner mini también confirmó esto en su razonamiento, y finalmente encontró la respuesta correcta: "El camino de mil rocas y diez mil vueltas es incierto".

He aquí una pregunta de matemáticas de GCSE de 2024:

Como puede verse, Step Reasoner mini realiza una ronda de pensamiento para obtener la respuesta correcta. También se puede ver que el modelo realiza dos rondas más de pensamiento después de la primera ronda de pensamiento para verificar la corrección de la respuesta. En las pruebas realizadas en el mundo real, comprobamos que si las respuestas de la primera y la segunda ronda no coincidían, Step Reasoner mini continuaba realizando múltiples rondas de pensamiento hasta obtener la respuesta correcta.

La siguiente es una pregunta de razonamiento lógico:

Como puede ver, Step Reasoner mini organiza sistemáticamente las relaciones entre varias personas de la pregunta y presenta la respuesta final de forma muy clara.

¿Qué pasa con las tareas sencillas de "artes liberales"? Por ejemplo, si se le pide al modelo que traduzca "No estoy en peligro, yo soy el peligro", ¿qué haría? Resulta que Step Reasoner mini, tras muchos intentos, acaba encontrando una traducción bastante prepotente: "I'm not in danger, I'm the danger". Lo que es aún más interesante es que, en el proceso de pensar en ello, también hizo referencia a una línea similar de El caballero oscuro.

Además, sabemos que Xiaohongshu ha visto recientemente una afluencia de usuarios extranjeros, y una de sus principales necesidades es encontrar nombres chinos. "¿Puede ayudarles Step Reasoner mini?

Como puedes ver, para las preguntas en inglés, Step Reasoner mini puede cambiar sin problemas al modo de pensamiento en inglés y, al mismo tiempo, también puede intercalar el pensamiento con el significado del chino. En cuanto al nombre de "Starry" que finalmente obtuvo, todavía se siente bien.

Huevo: los modelos de razonamiento visual también están en camino

Según el anuncio de hoy, además del modelo de razonamiento verbal, Step Star también ha lanzado un pequeño huevo: está construyendo un modelo de razonamiento visual para integrar la capacidad de razonamiento en un modelo más amplio con formas más interactivas.

Para el problema de Razonamiento en escenas visuales complejas, Step Star introduce percepción lenta yrazonamiento espacialLa idea es trasladar la Escala de Tiempo de Prueba del espacio textual al espacio visual, y realizar el Pensamiento Espacial-Lento en el espacio visual.

¿Cuál es su eficacia? Vea la pantalla:

1. Responda a las preguntas de la figura

2. ¿A cuál puedo llegar desde la flecha azul?

3. ¿Qué números corresponden a cada una de estas bolas?