近年、大規模言語モデリングの分野は、学習後期における強化学習の新たなパラダイムとして、産業界からの注目度が高まっている。OpenAIによるGPT-4oのようなOシリーズモデルの導入や ディープシーク-R1 このリリースでは、モデルの優れたパフォーマンスが、最適化プロセスにおける強化学習の重要な役割を実証している。
騰訊混合メタモデル・チームも最近大きな進展を遂げた。今年2月中旬、チームはテンセント元宝APP上で、中型混合元をベースにした混合元T1-プレビュー推論モデルを発表した。現在、混合メタモデル・シリーズの深層思考モデルは、混合メタT1の正式版にアップグレードされた。
住所
https://llm.hunyuan.tencent.com/#/chat/hy-t1
https://huggingface.co/spaces/tencent/Hunyuan-T1
Yuanbao/Yuanqi:テンセントの混合要素対応AIアシスタントとオープン・インテリジェント・ボディ・デザイン・プラットフォーム
Hybrid-T1は、3月上旬にリリースされた ターボS Rapid Thinking Base.TurboSは、世界初のハイパースケール混合専門家モデル(MoE)である。 変圧器 とMambaの2つのアーキテクチャがある。大規模なポストトレーニングにより、Mamba-T1の推論能力は大幅に拡張され、より人間の嗜好に沿ったものとなった。
Hybrid-T1は深層推論においてユニークな利点を持つ。第一に、TurboSの長文キャプチャ能力は、長文推論における文脈損失と遠隔情報依存の一般的な問題を効果的に解決するのに役立つ。第二に、Mambaアーキテクチャは特に長いシーケンス用に最適化されており、長いテキスト情報をキャプチャする能力を確保しながら、効率的な計算方法によって計算リソースの消費を大幅に削減します。同じ展開条件下で、デコード速度は2倍向上している。
モデルの後期訓練段階では、計算資源の96.7%が強化学習訓練に投入され、純粋推論の改善と人間の嗜好との整合性の最適化に焦点が当てられている。
この目標を達成するために、研究チームは数学、論理的推論、科学、コードの分野をカバーする世界トップクラスの科学的推論問題を収集した。これらのデータセットは、基本的な数学的推論から複雑な科学的問題解決まで、幅広いタスクをカバーしている。これと実際のフィードバック(ground-truth)を組み合わせることで、幅広い推論タスクに直面してもモデルが良好に動作することを保証する。
訓練はカリキュラム学習(CLE)アプローチを用いて行われ、モデルのコンテキストの長さを徐々に拡大しながらデータの難易度を徐々に上げていく。 トークン 理由
学習戦略に関しては、データ再生や定期的な方針再設定といった古典的な強化学習戦略を借用し、モデル学習の長期安定性を50%以上向上させる。人間の嗜好に合わせる段階では、自己報酬(T1-Previewの初期バージョンに基づくモデル出力の包括的評価と採点)と報酬モードを含む、統一された報酬系フィードバックスキームが、モデルを自己改善に導くために用いられる。モデルは、その応答において、より豊かな内容の詳細と、より効率的な情報を示す。
MMLU-pro、CEval、AIME、Zebra Logicなどの中国語や英語の知識、競技レベルの数学、論理的推論の公開ベンチマークテストにおいて、DeepSeek-R1と同等か、わずかに上回る結果を達成したことに加え、Mixed Elements-T1は、社内の人間評価データセットにおいても、文化的で創造的な指示への従順さ、テキストの要約、スマートボディの能力においてわずかに優位に立つなど、好成績を収めている。.
総合的な評価指標では、Hybrid-T1の総合的な性能は第一級のフロンティア推論モデルに匹敵する。総合的な能力評価では、T1は MMLU-PRO O1に次いで2位となった。 87.2 高得点のこのテストセットは、人文科学、社会科学、科学、工学の14分野から出題され、モデルの幅広い知識の記憶と理解をテストすることに重点を置いている。さらに、専門領域の知識と複雑な科学的推論に焦点を当てています。 GPQAダイヤモンド(T1は、物理学、化学、生物学の博士号レベルの問題を中心に、以下のような成果を上げています。 69.3 スコアだ。
コーディング、数学、論理的推論など、強力な推論力を必要とするシナリオが科学と工学でテストされた。その中で LiveCodeBench コード評価では、T1は 64.9 スコア。一方、T1は数学が得意だった。特に MATH-500 その上 96.2 DeepSeek-R1に続く優れた結果は、T1の数学的問題を解く総合的な能力を実証した。さらにT1は、複数のアライメント課題、コマンド追従課題、ツール利用課題において、強い適応性を示した。例えば、T1は アリーナハード を授与された。 91.9 スコアだ。
モデリング効果
注:表中の他のモデルの評価指標は、公式評価結果によるものである。公式評価結果に含まれていない部分については、ミックスエレメントの内部評価プラットフォームからのデータである。