これは ジャンピングスター Stepファミリーの最初の推論モデル。
OpenAI o1のような推論モデルがいよいよ国内でも展開される。
この度、"Six Little Tigers "のメンバーであるStep Starが、最新世代モデルStep Reasoner mini(略してStep R-mini)をリリースしました。Stepシリーズ初の推論モデルです。
新しいモデルは、先を見越したプランニング、実験と反省を得意とし、じっくり考え、ロジックの検証を繰り返すメカニズムによって、正確で信頼性の高い回答をユーザーに提供することができる。
さらに、超長文推理能力による論理的推理、暗号、数学などの複雑な問題の解決や、文芸創作のような汎用的な分野も得意とする。あるいは、「文武両道」である。
Step Starが発表したベンチマークデータによると、Step R-miniはAIME 2024とMath500数学ベンチマークの両方でSOTAを達成し、Math500はo1-miniより2ポイント高いスコアを出しています。コードタスクではo1-previewを上回る。
どのように機能するのか?機械の心臓部は、ステップスターに関係する人々から、新しいモデルは「RL」の含有率が高いので、汎化がより優れていることを学んだ。さらに、データの質、テスト時の計算、モデルの大きさなど、様々な面でもスケールしており、スケーリング法則の有効性が改めて検証された。
言語による推論モデルに加えて、彼らはマルチモーダルな推論が可能な視覚的推論モデルも構築している。さらに、情報源はこのマルチモーダル推論モデルが「本当に視覚領域での推論である」こと、つまり、「図を見て推論するのではなく、文字領域だけで推論する」、図での推論であることを強調している。
オーダー・リーピング・スターは、彼のロードマップをまた一歩前進させたようだ。
ステップ・リージョナー・ミニはどのように作られるのですか?
ステップR-miniによると、ステップR-miniの設計と開発は、推論モデル開発の現在の主流のパラダイムに従っている。具体的には、推論段階での計算量を増やし、思考連鎖などの技術を取り入れることで、「ゆっくり考える」ことを実現している。このシステムは、タスクの複雑性に基づいたプロアクティブな計画、実験、考察が可能であり、その結果、反復的に検証される論理メカニズムを通じて、正確で信頼性の高いフィードバックを提供する。
Step Reasonerによると、Step Reasoner miniの最大の目玉の一つは、「文理両立」の実現だという。具体的には、数学、コード、論理的推論の問題に正確に答えるだけでなく、Step Reasoner miniは文学的なコンテンツ作成や日常的なチャットのタスクを創造的にこなすことができる。これは、On-Policy強化学習アルゴリズムを用いた大規模な強化学習トレーニングによって実現されている。
また、モデル推理力の向上は、ステップスターがスケーリング法則の原則を守ることと切り離すことはできない。これには次のような点が挙げられる:
- スケーリング強化学習:模倣学習から強化学習へ、人間の嗜好から環境フィードバックへ、StepStarは、強化学習をモデル反復の中核となるトレーニング段階として、スケーリング強化トレーニングを採用している。
- データ品質の拡大:データ品質は最優先事項です。StepStarは、データ品質の確保を前提に、強化学習トレーニングに確かな保証を提供するため、データの流通と規模の拡大を続けています。
- Test-Time Computeのスケーリング:Training-Time ScalingをTest-Time Scalingと共にしっかりと実装することで、System 2のパラダイムは、非常に複雑なタスクの推論において、Step Reasoner miniが50,000think tokensに達することをStep Starは発見した。非常に複雑なタスクの推論で50,000思考トークンを達成し、より深い思考を可能にしました。
- モデルサイズの拡大縮小:これは最も古典的な拡大縮小の方法である。ステップ・スターによれば、モデル・サイズのスケーリングにこだわることは、今でもSystem-2の核心であり、私たちはすでに、よりスマートで、より多用途で、より包括的なステップ推論モデルを開発しています。
実地テストはどのように行われるのか?
Step Reasoner miniは "読み書きできる "と主張しているので、まずは読み書きできる問題でテストしてみよう。"天夢陰流別離を夢見る "の中で、数字とその倍数が同じ文の中にある行はどれか?難しい問題ではないが、AIに詩を覚えさせ、理解させるとともに、基本的な算数を要求する。多くの人は「屋上は48,000フィートの高さで、南東に落ちようとしている」と答えるべきだと考えるが、実際には「48,000フィートの高さ」となる。しかし、48,000は別の数字であり、この文にはその倍数はないので、カウントされない。Step Reasoner miniも推論でこれを確認し、最終的に「千の岩と万の曲がり角の道は不確かである」という正解を見つけた。
2024年のGCSE数学の問題を見てみよう:
見てわかるように、Step Reasoner miniは正しい答えを得るために1ラウンドの思考を行う。また、1回目の思考の後、答えの正しさを確認するためにさらに2回の思考を行うこともわかる。実際のテストでは、1ラウンド目と2ラウンド目の答えが一致しない場合、Step Reasoner miniは正しい答えを得るまで何度も思考を続けることがわかりました。
次は論理的推論の問題だ:
ご覧のように、Step Reasoner miniは、質問に登場する複数の人物の関係を体系的に整理し、最終的な答えを非常にわかりやすい形で提示します。
単純な "リベラルアーツ "タスクについてはどうだろう?例えば、"I'm not in danger, I'm the danger. "を訳せと言われたらどうするだろうか?ステップ推理ミニは、何度も試行錯誤を繰り返した結果、最終的に "I'm not in danger, I'm the danger. "という、かなり威圧的な訳語を発見した。さらに面白いのは、それを考える過程で、『ダークナイト』の似たようなセリフも参照したことだ。
また、小本集には最近、外国人ユーザーが流入してきており、彼らの大きなニーズのひとつが中国語の名前を考えることであることも分かっている。「Step Reasoner miniは彼らを助けることができますか?
このように、Step Reasoner miniは、英語の問題に対して、中国語の意味を織り交ぜながら、スムーズに英語の思考モードに切り替えることができる。最終的に手に入れた「Starry」という名前については、やはりしっくりくる。
卵:視覚的推論モデルも登場
今日の発表によると、言語による推論モデルに加えて、ステップスターは小さな卵も発表している。それは、推論機能をよりインタラクティブな形の大きなモデルに統合するために、視覚的推論モデルを構築しているということだ。
複雑な視覚シーンにおける推論問題では、ステップスターは遅い知覚を導入している。空間推理このアイデアは、テスト・タイム・スケーリングを文字空間から視覚空間に移し、視覚空間における空間的スロー・シンキングを実現するものである。
その効果は?ディスプレイをご覧ください:
1.図の質問に答える
2.青い矢印の先にはどれがありますか?
3.それぞれのボールに対応する数字は?