費用対効果の高い推理術の普及。
o1-miniはSTEM、特に数学とプログラミングに優れており、OpenAI o1-miniとほぼ同等のパフォーマンスを発揮します。 オープンAI o1 AIMEやCodeforcesのようなレビューベンチマークでも同等の性能を発揮する。o1-miniは、推論を必要とするが、広範な世界知識に依存しないアプリケーションシナリオのための、より高速で手頃なオプションになると予想される。
本日、80%用のOpenAI o1-previewをOpenAI o1-previewより安く提供します。 tier 5 APIユーザー(新しいウィンドウで開きます) o1-mini 提供開始。 ChatGPT Plus、Team、Enterprise、Edu ユーザーは o1-preview の代替として o1-mini を利用でき、より高い利用制限と低遅延を享受できます。
STEM推論に最適化
o1のような大規模な言語モデルは、通常、大規模なテキストデータセットで事前に訓練される。広範な世界知識にもかかわらず、これらの大容量モデルは実世界のアプリケーションでは高価で遅いことがある。対照的に、o1-miniは、事前学習段階でSTEM推論に最適化された小型モデルである。o1と同じ計算量の多い強化学習(RL)パイプラインを用いて学習した後、o1-miniは多くの実用的な推論タスクで同等の性能を発揮する一方、費用対効果は大幅に向上する。
知能と推論を必要とするベンチマークテストでは、o1-miniはo1-previewとo1を上回る。しかし、o1-miniは、非STEMの事実知識を必要とするタスクではパフォーマンスが低い。
数学的パフォーマンスと推論コスト
数学だ: 高校AIME数学コンペティションでは、o1-mini(70.0%)はo1(74.4%)と同等の成績を収め、o1-preview(44.6%)よりもかなり安い。44.6%)を上回った。o1-miniのスコア(11問中約15問正解)は、米国の高校生の上位500人程度に入る。
プログラミング: Codeforcesのコンペティションサイトでは、o1-miniのEloスコアは1650で、o1(1673)に匹敵し、o1-preview(1258)よりも高い。このEloスコアは、o1-miniをCodeforcesプラットフォームのプログラマーの上位86パーセンタイルに位置づけます。o1-miniは、HumanEvalプログラミングベンチマークと高校生レベルのサイバーセキュリティ・キャプチャー・ザ・フラッグ・チャレンジ(CTF)でも非常に良い成績を収めました。
コードフォース
ヒューマンエバール
サイバーセキュリティCTF
STEMだ: o1-miniは、GPQA(科学)やMATH-500のような推論を必要とするいくつかの学力テストでGPT-4oを上回った。o1-miniは、MMLUタスクではGPT-4oほど良い成績を収めず、GPQAではo1-previewに遅れをとったが、これは広範な世界知識が不足しているためである。
MMLU
ジーピーキューエー
MATH-500
人間の嗜好性評価: 我々は、[o1-previewとGPT-4oの比較](https://openai.com/index/learning-to-reason-with-llms/)で行ったのと同じ方法で、様々なドメインのオープンエンドパズルについて、o1-miniとGPT-4oの比較を評価者に依頼した。o1-previewと同様に、o1-miniは推論を必要とするドメインではGPT-4oよりも人気がありますが、言語に焦点を当てたドメインではGPT-4oよりも人気がありません。
人間の嗜好性評価 vs chatgpt-4o-latest
モデル速度
具体的な例として、語彙推論の問題でGPT-4o、o1-mini、o1-previewの回答を比較する。GPT-4oが不正解を出したのに対し、o1-miniとo1-previewはともに正解を出し、o1-miniは約3~5倍の速さで解答した。