Step Star выпускает Step R-mini! Модели рассуждений больше никогда не будут ориентированы на литературу и науку!

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
6K 00

это прыгающие звёзды Первая модель вывода из семейства моделей Step.

OpenAI o1-подобные модели выводов наконец-то появились в стране.
Только что Step Star, участник группы "Шесть маленьких тигров", выпустил модель последнего поколения - Step Reasoner mini ("Step R-mini"). Это первая модель вывода в семействе моделей серии Step.

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
Новая модель отличается проактивным планированием, экспериментами и размышлениями и способна давать точные и надежные ответы пользователям благодаря механизму неспешного обдумывания и итеративной проверки логики.

Кроме того, благодаря своей сверхдлинной способности к рассуждениям она прекрасно справляется с такими сложными задачами, как логические рассуждения, код и математика, а также с задачами общего назначения, такими как литературное творчество. Или "и литература, и наука", по словам самого Ордена Прыгающей Звезды.

Согласно данным бенчмарков, опубликованным Step Star, Step R-mini достигает SOTA в математических бенчмарках AIME 2024 и Math500, причем Math500 набирает на 2 балла больше, чем o1-mini. Step Reasoner mini также очень хорошо пишет код: он превосходит o1-mini в LiveCodeBench. В задачах с кодом он превосходит o1-preview.

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

Как все это работает? Machine Mind узнала от людей, участвовавших в проекте Order Leap Star, что новая модель имеет высокое содержание "RL" и поэтому лучше обобщает. Кроме того, они провели масштабирование по нескольким аспектам, таким как качество данных, вычисления во время тестирования, размер модели и т. д., и еще раз убедились, что Закон масштабирования Действительность

В дополнение к вербальной модели рассуждений они также создают визуальную модель рассуждений, способную к мультимодальным рассуждениям. Более того, источник подчеркнул, что эта мультимодальная модель рассуждений "действительно рассуждает в визуальной области", то есть рассуждает на диаграммах, "а не просто смотрит на диаграммы, но рассуждает только в текстовой области".

Похоже, Орден Прыгающей Звезды сделал еще один шаг вперед по своей дорожной карте.

 

Как изготавливается Step Reasoner mini?

Согласно Step R-mini, дизайн и разработка Step R-mini соответствуют современной парадигме разработки моделей рассуждений. В частности, в ней достигается "медленное мышление" за счет увеличения объема вычислений на этапе рассуждений и применения таких техник, как цепочка мыслей. Система способна к проактивному планированию, экспериментированию и рефлексии в зависимости от сложности задачи, обеспечивая точную и надежную обратную связь через итеративно проверяемый логический механизм.

По словам представителей Step Reasoner, одной из главных особенностей Step Reasoner mini является реализация "одновременно литературы и науки". В частности, помимо точных ответов на вопросы по математике, коду и логическому мышлению, Step Reasoner mini также способен творчески подходить к созданию литературного контента и выполнению ежедневных заданий в чате. Это достигается благодаря масштабному обучению с применением алгоритмов обучения с подкреплением On-Policy.

Кроме того, улучшение способности рассуждать о моделях не может быть отделено от соблюдения Step Star принципов Закона масштабирования. Это включает в себя следующие моменты:

  1. Масштабное обучение с подкреплением: от имитационного обучения до обучения с подкреплением, от предпочтений человека до обратной связи с окружающей средой, StepStar придерживается принципа масштабного обучения с подкреплением, при котором обучение с подкреплением является основным этапом обучения в итерации модели.
  2. Повышение качества данных: качество данных - главный приоритет. В соответствии с принципом обеспечения качества данных StepStar продолжает расширять распространение и масштабы данных, чтобы обеспечить надежную гарантию для обучения с применением подкрепления.
  3. Масштабирование вычислений в тестовое время: Твердо внедрив масштабирование в тренировочное время вместе с масштабированием в тестовое время, Step Star обнаружил, что парадигма System 2 позволяет Step Reasoner mini достигать 50 000 жетонов мышления при решении очень сложных задач. В ходе решения очень сложных задач Step Reasoner mini достиг 50 000 жетонов мышления, что позволило углубить мышление.
  4. Масштабирование размера модели: это самый классический способ масштабирования. По мнению Step Star, настаивание на масштабировании размера модели по-прежнему является основой System-2, и мы уже разрабатываем более умную, универсальную и всеобъемлющую модель умозаключений Step Reasoner.

 

Как проходит испытание в реальных условиях?

Поскольку Step Reasoner mini заявляет о своей "грамотности", давайте начнем тестировать его с грамотного вопроса: в стихотворении "Прощание с мечтой о путешествии в Тяньму-Иньлю" в какой строке в одном предложении встречается число и его кратность? Это не сложный вопрос, но он требует от ИИ запоминания и понимания стихотворения, а также основ арифметики. Хотя многие думают, что ответ должен быть таким: "Высота крыши 48 000 футов, и она вот-вот упадет на юго-восток", на самом деле ответ - "48 000 футов". Но 48 000 - это отдельное число, и в этом предложении нет кратных ему, поэтому оно не считается. Step Reasoner mini также подтвердил это в своих рассуждениях и в итоге нашел правильный ответ: "Путь из тысячи камней и десяти тысяч поворотов неопределен".

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

 

Представляем вашему вниманию вопрос по математике из GCSE 2024 года:

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

Как видно, Step Reasoner mini выполняет один цикл размышлений, чтобы получить правильный ответ. Также видно, что после первого раунда модель выполняет еще два раунда размышлений, чтобы проверить правильность ответа. В ходе реальных испытаний мы обнаружили, что если ответы первого и второго раундов не совпадают, Step Reasoner mini продолжает выполнять несколько раундов размышлений, пока не получит правильный ответ.

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

Следующий вопрос - логические рассуждения:

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

Как видите, Step Reasoner mini систематически упорядочивает отношения между несколькими людьми в вопросе и представляет окончательный ответ в очень наглядной форме.

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

 

А как насчет простых "гуманитарных" задач? Например, если модель попросить перевести "Я не в опасности, я - опасность", что она сделает? Оказывается, Step Reasoner mini после многих попыток в конце концов нашел довольно повелительный перевод: "Я не в опасности, я - опасность". Что еще интереснее, так это то, что в процессе размышлений он также сослался на похожую реплику из "Темного рыцаря".

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

 

Кроме того, мы знаем, что в последнее время в Xiaohongshu наблюдается приток иностранных пользователей, и одной из их основных потребностей является создание китайских имен. "Может ли Step Reasoner mini помочь им?

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

Как видите, для английских вопросов Step Reasoner mini может плавно переключиться в режим английского мышления, при этом не забывая размышлять о китайских значениях. Что касается имени "Звездный", которое мы наконец получили, то оно по-прежнему приятно.

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

 

Яйцо: визуальные модели рассуждений тоже на подходе

Судя по сегодняшнему анонсу, в дополнение к вербальной модели рассуждений Step Star также выпустила небольшое яйцо: она создает визуальную модель рассуждений, чтобы интегрировать возможности рассуждений в большие модели более интерактивных форм.

Для решения задачи рассуждения в сложных визуальных сценах Step Star вводит медленное восприятие ипространственное мышлениеИдея заключается в том, чтобы перенести шкалу времени тестирования из текстового пространства в визуальное и реализовать пространственно-медленное мышление в визуальном пространстве.

Насколько он эффективен? Посмотрите на дисплей:

1. Ответьте на вопросы на рисунке

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

 

2. К какому из них я могу подойти по синей стрелке?

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

 

3. Какие числа соответствуют каждому из этих шаров?

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...