今朝2時、オープンエイの12日間にわたるライブストリーミングはついに最終章を迎えた!
o3はo1ファミリーの後継モデルである。このタイプのモデルの特徴は、質問に答える前にモデルが考える(推論する)時間を増やすことで、答えの精度を高めることである。しかし、OpenAIはネーミングでo2をスキップした。The Informationによると、これは著作権の問題を避けるために行われたもので、英国にはO2という名前の通信会社があり、混乱を引き起こす可能性があったからだという。サム・アルトマンは今日の午後のライブストリームでこれを確認した。
実際、OpenAIは昨日からこのモデルを温めている。そして、すでに開発者はOpenAIのウェブサイトでo3_min_safety_testへの参照を発見している。
o3 発売日
さて、噂通りo3とo3-miniが登場した!残念ながら、o3シリーズのモデルは直接一般に発売されるわけではなく、まず安全性のテストが行われる予定であり、サム・アルトマンも今日は発売ではなく、単なる発表だと指摘している。
サム・アルトマンは、1月末頃にo3-miniを発売し、その後すぐにo3のフルモデルを発売する予定だと述べた。
o3とo3-miniの違い
o3-mini: o3 miniは、モデルの性能を考慮しながら、推論速度の向上と推論コストの削減に焦点を当てた、よりコストパフォーマンスの高いo3バージョンです。高いパフォーマンスと低コストにより、プログラミングに最適です。
推論時間は、低、中、高の3種類をサポートしている。
o1と比べると、o3-miniのCodeforcesでのパフォーマンスは驚くほどコストパフォーマンスが高く、プログラミングに使うには最適なモデルだ。
数学的な問題では、o3-mini(low)はgpt-4oに匹敵する低レイテンシを達成する。
o3-miniのすべてのAPI機能と、それに対応する機能を以下に示します:
o3 適性検査
グーグルから発表されたばかりの「o3」と比べて、「o3」の強さはどうだろうか?ジェミニ2.0フラッシュ思考比較せよ:
o3の実力は、現在ではほとんどすべてのモデルに真っ向から打撃を与えている。o3の実力を見てみよう。
左側。ソフトウェア工学試験(SWE-Bench Verified)。これはプログラムを書くときのテストのようなもので、たとえば、速く正確に、バグ(小さなエラー)がないようにソフトウェアを書く。これは、o3が一流のソフトウェア・エンジニアのように完璧なコードを書けるかどうかをチェックするものです。o3のスコアは71.7%で、o1よりはるかに強力です。o3のスコアは2,727で、全体の175位に相当し、すでに人間の99.99%を上回っている。
O1のコーディング能力は爆発的なものであり、O3はAGIの頂点へ向けてまた大きな一歩を踏み出した。
aIEM 2024は満点に近く、私の記憶が正しければ、AIが満点に近いAIEMが存在するレベルに到達できたのは初めてのことだろう。博士号レベルの科学試験も進化しているが、数学やプログラミングほど激しくはない。
次の数学のベンチマークはもう少し面白い。 エポック社が開発した数学のベンチマークテスト「rontierMath」は、高度な数学的推論におけるAIの能力を評価するために、60名以上の一流の数学者の協力によって開発されました。また、データ汚染を避けるため、問題はすべてオリジナルで、これまでに出題されたことのない新しい問題です。
以前はGPT-4と ジェミニ 1.5 Pro このモデルは、GSM-8KやMATHといった他の伝統的な数学ベンチマークでは90%以上の成功率であるのとは対照的に、2%未満の成功力で評価に臨む。そして今回はo3 直接25.2.他の主要機種が依然として伝統的な数学ベンチマークを繰り広げている中、o3は本当に別世界に進出した。
o3、AIモデルとして初めてARC-AGIベンチマークを更新
ARC Prize Fundationは、「ベンチマークを通じてAGIへの道の北極星となる」ことを目指す非営利団体である。同団体の最初のベンチマークであるARC-AGIは、5年前から提案されているが、いまだ達成されていない。
これまでカムラットは、o3がベンチマークで優れたレベルを達成し、ARC-AGIベンチマークを破った最初のAIモデルになったと発表していた。
2019年に初めて発表されたARC-AGIは、一連の抽象化と推論タスクを通じてAIシステムの能力をテストすることを目的としている。主な理由は、従来のスキルの尺度は、事前の知識や経験に依存する傾向があるため、知能を効果的に表すことができないのに対し、真の知能は幅広い適応性と一般性に反映されるべきであるからだ。そこでARC-AGIが誕生し、AIにパターンを認識させ、新たな問題を解決させるタスクが各タスクの入出力例から構成されている。これらのタスクはグリッドの形で提示され、各マスは10色から1つを選ぶことができ、グリッドのサイズは1x1から30x30まで様々である。参加者は与えられた入力に基づいて正しい出力を生成する必要があり、推論と抽象化のスキルが試される。簡単に言えば、パターンを見つけるということだ。おそらくそういうことだろう:
ARC-AGIベンチマークでは、AIは1つの入力に基づいて出力を予測する前に、対になった「入力-出力」の例に基づいてパターンを探す必要がある。卒業シーズンの採用試験や公務員試験を受けたことのある人なら、このような図形推論の問題に馴染みがないわけではないだろう。
非常に難解で抽象的。歴代モデルの評価はこちら:
o3ファミリーのモデルは、ARC-AGIベンチマークで最低75.7%の性能を達成すると言われており、o3は、より多くの計算資源を使って長時間思考させれば、さらに87.5%に達することができる。
0%から5%までは丸5年かかったが、5%から87.5%までは半年しかかからなかった。AGIへの道にもはや障害はない。
o3 モデルの仕組み
現時点では、o3モデルがどのように機能するかについて、少し推測することしかできない。 トークン 自然言語プログラムの検索と実行のための空間 - テスト中、モデルは、タスクを解決するために必要なステップを記述する可能な思考連鎖の空間を検索します。アルファゼロスタイルのモンテカルロ木探索に似た方法で。o3の場合、探索はある種の評価モデルによって導かれるかもしれない。ディープマインドのデミス・ハサビスが2023年6月のインタビューで、ディープマインドがこのコンセプトに取り組んでいることをほのめかしていたことは注目に値する。