OpenAIが新モデル「o3-mini」をプッシュ、DeepSeekが後押し？価格ではまだ勝てない

47.3K 00

高品質なAI推論モデルの普及に向けて。

今朝早く、OpenAIは新しい推論モデルをリリースした。o3-ミニ.

OpenAIは、o1-miniの低コストと低レイテンシーを維持しながら、複雑な推論と対話機能を大幅に改善し、科学、数学、プログラミングなどにおいて前身のo1モデルを凌ぐ、最も費用対効果の高い推論モデルであると主張している。ネットワーク検索機能と併用可能.

o3-miniはすでにChatGPTとAPIで利用可能で、Enterpriseへのアクセスは次のようになります。一週間打ち上げだ。

DeepSeekが米国のApp Storeの無料チャートでトップに躍り出たことで、OpenAIにプレッシャーがかかったようだ。

今日はChatGPTは初めて、すべてのユーザーに無料の推論モデルを提供します。ChatGPTの "Reason "ボタンからo3-miniを試すことができます。

チャットGPT プロ・ユーザーは次のことができる無制限アクセスPlusおよびTeamユーザーのレート制限は、o1-miniの1日50メッセージからo3-miniの1日50メッセージへと3倍になりました。150メッセージ.

有料会員には、よりインテリジェントなバージョンも用意されている。o3ミニハイ".このバージョンはレスポンスを生成するのに時間がかかる。

o1モデルと同様、o3-miniモデルも、知識カットオフが2023年10月コンテキスト・ウィンドウは20万トークンで、最大出力は10万トークンである。o3-miniは、開発者が特定のユースケースに最適化できるよう、ロー、ミディアム、ハイのバージョンが用意されている。

o3-miniは現在のところ視覚的機能をサポートしていないため、開発者は視覚的推論タスクのためにo1を使用する必要がある。

直ちに、o3-miniはチャット完了API、アシスタントAPI、バッチAPIで利用可能である。openAIは、トップクラスの推論を維持しながら、トークンあたりの価格はGPT-4のローンチと比較して95%下がったとしている。しかし、o3-miniのAPI価格はDeepSeekモデルよりもまだ高い。

OpenAIモデルとDeepSeekモデルのAPI価格比較

セキュリティの面では、OpenAIは、o3-miniがセキュリティとジェイルブレイクに挑戦するという点でGPT-4oを大幅に上回ることを発見した。

01.詳細 o3-mini：科学的数理プログラミング機能の大幅なレイテンシ低減による進化

全文OpenAI o3-miniシステムマニュアル（中国語）

OpenAIは、o3-miniに関する37ページの詳細なレポートを発表した。このレポートは、モデルの紹介、データとトレーニング、テストの範囲、セキュリティの課題と評価、外部レッドチームのテスト、準備フレームワークの評価、多言語パフォーマンス、結論など、幅広い側面をカバーしている。

o3-miniは、科学、数学、プログラミングの推論に最適化され、反応性も向上しています。このモデルは、GPQA Diamond（科学、化学、生物学）、AIME 2022-2024（数学）、Codeforces ELO（プログラミング）のベンチマークで、それぞれ0.77、0.80、2036のスコアを獲得しました。

o3-miniは、14言語のMMLUテストセットにおいてo1-miniを大幅に上回り、多言語理解における進歩が実証された。

外部の専門家テスターによる評価では、o3-miniはo1-miniよりも正確で明確な解答と優れた推論を提供することが示された。人間の嗜好性評価では、テスターは561 TP3Tよりもo3-miniの答えを好み、実世界の難しい問題での重大なミスが391 TP3T減少したことが観察された。o3-miniは、推論と知能に関する最も難しい評価（AIMEとGPQAを含む）のうち、中程度の推論能力においてo1と同等の成績を収めた。

o3-miniの知能はo1に匹敵し、より速いパフォーマンスと高い効率を提供します。このモデルは、中程度の推論能力の下で、数学的および事実的な追加評価にも優れています。A/Bテストでは、o3-miniはo1-miniよりも241 TP3Tに速く反応し、平均反応時間はo1-miniの10.16秒に対して7.7秒であった。

数学では、低い推理力ではo3-miniはo1-miniと同等の成績を収め、中程度の推理力ではo3-miniはo1と同等の成績を収めた。一方、高い推理力では、o3-miniはo1-miniとo1を上回った。

高い推論力を持つo3-miniは、FrontierMathにおいてその前身を凌駕した。FrontierMathのテストにおいて、Pythonツールを使用するよう促されたとき、高い推論力を持つo3-miniは321 TP3T以上の問題を最初の試行で解いた。

o3-miniは推論能力が上がるにつれて徐々に高いEloスコアを獲得し、いずれもo1-miniより優れている。中程度の推論能力ではo1に匹敵する。

o3-miniは、SWEベンチの検証においてOpenAIの最高性能モデルである。

内部ツールの代わりにAgentlessを使用したo3-miniリスト候補は、391 TP3Tを記録した。o1は、481 TP3Tを記録し、2番目に優れた性能を持つモデルであった。

LiveBenchプログラミング・テストでは、推論の高いo3-miniがo1-highを軒並み上回った。

02.複数の安全性評価がGPT-4oを上回る

OpenAIはまた、いくつかのセキュリティ評価におけるo3-miniのパフォーマンスについても詳述しており、挑戦的なセキュリティ評価と脱獄評価において、o3-miniはGPT-4oを大幅に上回ったと述べている。否認コンテンツ評価において、o3-miniはGPT-4oと比較した場合、標準的な否認評価と挑戦的な否認評価では同様のパフォーマンスを示したが、XSTestではわずかに劣っていた。.

脱獄評価では、o3-miniは、本番脱獄、脱獄強化例、StrongReject、および人間による脱獄評価において、o1-miniと比較して遜色のないパフォーマンスを示した。

PersonQAデータセットを用いた幻覚評価では、o3-miniの精度は21.71 TP3T、幻覚率は14.81 TP3Tであり、GPT-4oやo1-miniと比較して同等以上の性能であった。

公平性評価と偏見評価において、o3-miniはBBQ評価ではo1-miniと同様の成績を残したが、曖昧な質問を扱った場合には精度がわずかに低下した。

社外のレッドチームによるテストでは、o3-miniはo1と比べて遜色ない性能を発揮し、どちらもGPT-4oを大幅に上回った。

Gray Swan Arenaの脱獄テストでは、o3-miniの平均ユーザー攻撃成功率は3.61 TP3Tであり、これはo1-miniおよびGPT-4oと比較してわずかに高い。即応性フレームワーク評価では、サイバーセキュリティ、CBRN（化学、生物、放射性物質、核）、説得、モデルの自律性という4つのリスクカテゴリーが対象となった。o3-miniは、サイバーセキュリティで「低リスク」、CBRN、説得、モデルの自律性で「中リスク」、生物学的脅威で「中リスク」と評価された。リスク "と評価され、生物学的脅威の創出においては "中リスク "の閾値を満たしていたが、核兵器や放射性物質の開発においては限られた能力しか有していなかった。

その評価に従って、緩和スコアが「中」以下のモデルだけが配備され、「高」以下のモデルはさらに開発することができる。

03.o3ベンチマークに3,000万ドル以上かかる可能性、OpenAIは2,900億円の新規資金調達で交渉中

OpenAIは、昨年9月にo1をリリースして以来、推論モデルを改良し続けており、昨年末にリリースされたo3は、その最新世代のAI推論モデルである。o3モデルのハイエンドバージョンはハイコンピューティングアプリケーション向けで、o3-miniは費用対効果と効率性の両方を必要とするユーザー向けである。これは、アクセシビリティとプレミアムな有料サービスのバランスを取ろうとするOpenAIの戦略を反映している。

この2日間、DeepSeekに押されたのか、それともo3-miniを温めるためなのかはわからないが、OpenAIの共同設立者であるサム・アルトマンは、ソーシャルメディア・プラットフォームで非常に活発に活動しており、DeepSeek R1を再び印象的だと賞賛し、OpenAIはより良いモデルを提供すると述べ、より多くの計算が重要だと強調している。

昨日、彼は大きな発表を行った。初の完全な8ラックGB200 NVL72サーバはOpenAIのためにMicrosoft Azure上で稼働している。

今週金曜日に発表されたインド政府の経済調査報告書2024-2025によると、OpenAIは以下のような支出をしているようだ。3000万ドルARC-AGIベンチマークは最も困難なAIタスクのひとつであり、OpenAIの非効率的なAI推論モデルであるo3のベンチマークを実施した。レポートでは、OpenAIのo3モデルの処理能力の飛躍的向上は、非常に高い代償を払うことになったと書いている。ARC-AGIベンチマークは、最も困難なAIタスクの1つと考えられており、OpenAIの非効率的に構成されたモデルは、以下のような結果を招いた。$200,000効率的なモデルのコストは、非効率的なモデルのコストよりもさらに高い。効率的なモデルのコストは、非効率的なモデルのコストよりもさらに高い。172回というところだ。3440万ドル.

アルトマンは先日、マイクロソフト会長兼CEOのサティア・ナデラとの写真も掲載し、マイクロソフトとOpenAIのパートナーシップの次の段階は、誰もが想像していたよりもはるかに良いものになるだろうと述べた。

しかし、OpenAIへの最大の投資家としてのマイクロソフトの名声は、日本のソフトバンク・グループに奪われるかもしれない。最近、ソフトバンクグループの創業者兼CEOの孫正義氏とアルトマンは、ますます接近しており、先週、両者は手を組んでAIメガプロジェクト「スターゲイト」を立ち上げ、今後4年間で5000億米ドル（約3兆6000億元）を投資してAIインフラを構築すると発表したが、昨日、彼らがOpenAIの新ラウンド融資のリードインベスターになることが明らかになった。OpenAIの新たな資金調達ラウンド

海外メディアの報道によると、オープンAIは最大で資金調達ラウンドの予備的な交渉を行っているという。400億米ドル（約2,901億人民元）評価額は3,000億米ドル（約2兆1,800億人民元）.日本のソフトバンクグループがこのラウンドを主導し、投資交渉を行っている。150億ドルから250億ドル残りの資金は他の投資家から残りの資金は、ソフトバンクが以前にスターゲイトへの投資を約束した金額に加えて、他の投資家から調達される。150億ドル以上最終的にソフトバンクはOpenAIとの提携に投資する可能性がある。400億ドル以上.これはソフトバンクにとってこれまでで最大規模の投資となる。

04.結論：価格性能比の乱高下、普及に向かう高品質AI推論モデル

以前、マスクや他の技術指導者たちは、「スターゲイト」構築にかかる莫大な費用をどのように捻出するのか公に疑問を呈していた。ディープシークの高性能、低コストのオープンソースモデルの影響を受け、米国のAI業界とウォール街の投資家は、OpenAIのような他の米国のAI開発企業の巨額の支出戦略に対してさらに懐疑的になっている。

OpenAIの最新の発表であるo3-miniは、ディープシークモデルの猛攻をかわすための最新の動きとも見られており、これは業界にとって特に興味深いものである。

プレスリリースの中でOpenAIは、o3-miniのリリースは、費用対効果の高いインテリジェンスの限界を押し広げ、高品質のAIをより身近なものにするという同社のミッションに向けた新たな一歩であり、OpenAIはインテリジェンス、効率性、セキュリティのバランスがとれた大規模モデルの構築の最前線に立つことを約束すると述べている。