스텝 스타, 스텝 R-mini 출시! 추론 모델은 더 이상 문학과 과학에 편향되지 않습니다!

36.9K 00

이것은 점핑 스타 Step 모델 제품군의 첫 번째 추론 모델입니다.

드디어 OpenAI o1과 유사한 추론 모델이 국내에 출시됩니다.
얼마 전 '식스 리틀 타이거즈'의 멤버인 스텝 스타가 최신 모델인 스텝 리서처 미니(줄여서 '스텝 R-mini')를 출시했습니다. 이 모델은 스텝 시리즈 모델 제품군의 첫 번째 추론 모델입니다.

阶跃星辰发布Step R-mini！推理模型从此不再文理偏科
이 새로운 모델은 사전 계획, 실험, 반영에 탁월하며 느리게 생각하고 로직을 반복적으로 검증하는 메커니즘을 통해 사용자에게 정확하고 신뢰할 수 있는 응답을 제공할 수 있습니다.

또한 논리적 추론, 코드, 수학 등 복잡한 문제뿐만 아니라 문학 창작과 같은 범용 분야에서도 뛰어난 추론 능력을 발휘합니다. 오더 리프핑 스타의 표현을 빌리자면 '문학과 과학 모두'라고 할 수 있죠.

스텝 스타가 발표한 벤치마크 데이터에 따르면, 스텝 R-mini는 AIME 2024와 Math500 수학 벤치마크 모두에서 SOTA를 달성했으며, Math500은 o1-mini보다 2점 더 높은 점수를 받았습니다. 스텝 리소너 미니는 코드 작성도 매우 잘합니다. 라이브 코드 벤치에서 o1-mini보다 성능이 뛰어납니다. 코드 작업에서 o1-프리뷰보다 우수한 성능을 보였습니다.

어떻게 작동하나요? 머신마인드는 오더 리프 스타 관계자들로부터 새로운 모델의 'RL' 콘텐츠가 높기 때문에 일반화가 더 잘된다는 사실을 알게 되었습니다. 또한 데이터 품질, 테스트 시 계산, 모델 크기 등 여러 측면에서 확장하여 다시 한 번 확인했습니다. 스케일링 법칙 의 유효성

언어적 추론 모델 외에도 다중 모드 추론이 가능한 시각적 추론 모델도 구축하고 있습니다. 또한 이 멀티모달 추론 모델은 "단순히 다이어그램을 보고 텍스트 영역에서만 추론하는 것이 아니라 다이어그램에 대한 추론, 즉 시각적 영역에서 추론하는 것"이라고 강조했습니다.

주문 도약 스타는 로드맵에서 한 걸음 더 나아간 것 같습니다.

스텝 리서처 미니는 어떻게 만들어지나요?

Step R-mini의 설계와 개발은 현재 추론 모델 개발의 주류 패러다임을 따르고 있습니다. 특히 추론 단계의 연산량을 늘리고 사고 연쇄와 같은 기법을 도입해 '느린 사고'를 실현합니다. 이 시스템은 작업의 복잡성에 따라 사전 계획, 실험 및 반영이 가능하므로 반복적으로 검증된 논리 메커니즘을 통해 정확하고 신뢰할 수 있는 피드백을 제공합니다.

스텝 리서처에 따르면 스텝 리서처 미니의 가장 큰 특징 중 하나는 '문학과 과학'을 모두 실현했다는 점입니다. 특히 스텝 리서처 미니는 수학, 코드, 논리적 추론 문제에 정확하게 답하는 것 외에도 문학 콘텐츠 제작과 일상적인 채팅 과제를 창의적으로 완수할 수 있습니다. 이는 온-폴리시 강화 학습 알고리즘을 사용한 대규모 강화 학습 훈련을 통해 달성할 수 있습니다.

또한 모델 추론 능력의 향상은 스텝스타가 스케일링 법칙의 원칙을 준수하는 것과 분리할 수 없습니다. 여기에는 다음 사항이 포함됩니다:

확장 강화 학습: 모방 학습에서 강화 학습, 인간 선호도부터 환경 피드백까지, StepStar는 모델 반복의 핵심 훈련 단계로 강화 학습을 사용하는 확장 강화 학습을 고수합니다.
데이터 품질 확장: 데이터 품질은 최우선 과제입니다. 데이터 품질 보장이라는 전제 하에, 스텝스타는 강화 학습 훈련을 위한 확고한 보증을 제공하기 위해 데이터 배포와 규모를 지속적으로 확장하고 있습니다.
테스트 시간 컴퓨팅 확장: 테스트 시간 확장과 함께 훈련 시간 확장을 확고하게 구현한 스텝스타는 시스템 2 패러다임을 통해 매우 복잡한 작업 추론에서 스텝 리서처 미니가 50,000개의 씽크 토큰에 도달할 수 있다는 사실을 발견했습니다. 매우 복잡한 작업에 대한 토큰을 사용하여 더 깊은 사고를 가능하게 합니다.
모델 크기 확장: 가장 고전적인 확장 방식입니다. 스텝 스타에 따르면 모델 크기 확장은 여전히 시스템-2의 핵심이며, 더 스마트하고 다재다능하며 포괄적인 스텝 추론 모델을 개발 중이라고 합니다.

실제 테스트는 어떻게 진행되나요?

스텝 리서처 미니는 "문해력"이 있다고 주장하므로 문해력 문제부터 테스트해 보겠습니다: "천무인류 이별 여행을 꿈꾸며"에서 같은 문장에서 숫자와 그 배수인 줄은 어느 것일까요? 어려운 질문은 아니지만 인공지능이 시를 기억하고 이해해야 하며 기본적인 산술도 알아야 합니다. 많은 사람들이 "옥상의 높이는 48,000피트이고 남동쪽으로 곧 떨어질 것이다"라고 답해야 한다고 생각하지만, 실제로는 "48,000피트 높이"가 정답입니다. 그러나 48,000은 별도의 숫자이며 이 문장에는 배수가 없으므로 계산에 포함되지 않습니다. 스텝 리서처 미니도 추론에서 이를 확인한 후 마침내 "천 개의 바위와 만 개의 회전 경로가 불확실하다"라는 정답을 찾았습니다.

2024년 GCSE 수학 문제를 살펴보세요:

보시다시피, 스텝 리서처 미니는 정답을 얻기 위해 한 차례의 사고를 수행합니다. 또한 모델은 정답의 정확성을 검증하기 위해 첫 번째 사고 라운드 이후 두 번의 사고 라운드를 더 수행하는 것을 볼 수 있습니다. 실제 테스트에서 첫 번째와 두 번째 라운드의 답변이 일치하지 않으면 Step Reasoner mini는 정답을 얻을 때까지 여러 번의 사고 라운드를 계속 수행하는 것으로 나타났습니다.

다음은 논리적 추론 문제입니다:

보시다시피 스텝 리서처 미니는 문제 속 여러 사람 간의 관계를 체계적으로 정리하고 최종 답을 매우 명확한 형태로 제시합니다.

간단한 '교양' 과제는 어떨까요? 예를 들어, 모델에게 "나는 위험하지 않다, 내가 위험하다."를 번역하라는 요청을 받으면 어떻게 번역할까요? 스텝 리서처 미니는 여러 번의 시도 끝에 결국 "나는 위험하지 않아, 내가 위험해"라는 다소 위압적인 번역을 찾아냈습니다. 더 흥미로운 점은 이 번역을 고민하는 과정에서 다크 나이트의 비슷한 대사도 떠올랐다는 것입니다.

또한 최근 샤오홍슈에 외국인 사용자가 유입되고 있으며, 이들의 주요 요구 사항 중 하나가 중국어 이름을 짓는 것이라는 사실을 알고 있습니다. "스텝 리서처 미니가 도움이 될 수 있을까요?

보시다시피 영어 문제의 경우 스텝 리서처 미니는 영어 사고 모드로 원활하게 전환할 수 있으며 동시에 중국어의 의미에 대한 생각도 산재할 수 있습니다. 마침내 얻은 "별"이라는 이름에 관해서는 여전히 기분이 좋습니다.