AIパーソナル・ラーニング
と実践的なガイダンス

o3-miniがDeepSeek R1を粉砕:400万回近く再生されたPythonプログラム

AIの世界では、次のような見出しが躍っている。 ディープシーク 10日間の契約期間を経て、OpenAIはようやく腰を上げ、新しい推論モデルシリーズ「o3-mini」を発表した。これは、推論モデルを初めて無料ユーザーに開放するだけでなく、従来のo1シリーズに比べてコストを15分の1に抑えたものである。

 


OpenAIはまた、これは推論モデルファミリーの中で最も新しく、最も費用対効果の高いモデルだと主張している:

 

発売されたばかりだが、一部のネットユーザーは、ビッグモデル界を席巻している国産ビッグモデルとの比較を待ちきれない様子だ。 ディープシークR1 比較が行われた。
少し前、AIコミュニティは、DeepSeek R1を使って他の(推論)モデルと競争することに夢中になった。図形をゆっくり回転させ、ボールが図形の中に留まるようにする。"
この模擬弾むボールのテストは、古典的なプログラミングの課題である。これは衝突検出アルゴリズムに相当し、2つのオブジェクト(例えばボールと図形の側面)が衝突したときにモデルが認識する必要があります。不適切に書かれたアルゴリズムは、明らかな物理エラーを持つ可能性があります。
ディープシークR1が国内外のホットな検索を席巻し、マイクロソフト、エヌビディア、アマゾンといったアメリカのクラウドコンピューティング・プラットフォームがR1の導入に奔走する中、R1もこのタスクでOpenAI o1 proを粉砕した。
見直す クロード 3.5 ソネットとグーグルの ジェミニ 1.5プロの結果では、ディープシークのオープンソースモデルは実に1レベル以上高い。
しかし o3-ミニ このような投稿は、OpenAI o3-miniがDeepSeek R1を打ち負かしたと主張している。
この開発者は、「回転する六角形の中でボールが弾む様子を示すPythonプログラムを書いてください。 ボールは重力と摩擦の影響を受けるはずです。ボールは重力と摩擦の影響を受け、回転する壁をリアルに跳ね返らなければならない。
つまり、o3-miniとDeepSeek R1にそれぞれ、回転する六角形の中でボールが重力と摩擦の効果に従って跳ねるPythonプログラムを書かせます。最終的なプレゼンテーションは以下のようになる:
エフェクトの面では、o3-miniの方が衝突やバウンドのエフェクトがよく出ている。重力と摩擦の理解からすると、DeepSeek R1バージョンのボールはニュートンの棺桶プレートに少し圧倒されているようで、重力にまったくコントロールされていない。
これは孤立したケースではなく、@hyperbolic_labsの共同設立者であるYuchen Jinも、DeepSeek R1とo3-miniにそれぞれプロンプトの単語を入力してこの問題を発見している。write a Python script of a ball bouncing inside a tesseract)と入力した。
四次元超立方体の各頂点は4つの突起に隣接し、各突起は2つの立方体を結ぶ。四次元の幾何学は人間の直感的な知覚を超えるので、これらの説明を聞いても、四次元の超立方体がどのようなものかを想像するのは難しいかもしれない。
また、o3miniは安定したジオメトリーを示すだけでなく、ボールはより柔軟な軌道で4次元的に弾み、立方体の側面を打つようなパーカッシブな感覚をもたらす。
DeepSeek R1を見ると、4次元超立方体の形状に対する理解が十分深まっていないようだ。それと同時に、ボールの軌道が「ヒラヒラ」して、ちょっと変な感じもする。
ユチェン・ジンによると、彼は何度も試したが、DeepSeek R1での試みはすべて、ボールが残っている下の写真のように、使い捨てのo3-miniよりも悪かったという。
マシンの心臓部も個人的なテストであり、同じPass@1テスト、DeepSeek R1今回はボールと幾何学的なフレームの両方があり、ボールも色の色を変更しますが、残念ながら、それは3次元の空間座標軸に簡略化された4次元ハイパーキューブです。
明らかに、ユチェン・ジンはまったく同じプロンプトを入力しているが、なぜo3-miniは同じことができないのだろうか?なぜo3-miniは上記のような「売り手ショー」ができないのだろうか?
ジオメトリ・フレーム内でボールをバウンドさせる手順を生成するという点では、DeepSeek R1はo3-miniにとって完全な失敗ではないようだ。
AIGCのプラクティショナーである@myapdxは、o3-miniとDeepSeek R1をより複雑なキューでテストした。各球は、最も近い経路を示す軌跡をフェードアウトする必要があります。コンテナ球はゆっくり回転する。球が球の中にとどまるように、適切な衝突検出を実装してください。
o3-miniの仕組みはこうだ:
球体内部でのバウンド、消えていく軌跡、コンテナのゆっくりとした回転......。.o3-miniはすべて完璧に満たしている。
それにディープシークR1も悪くないようだ:
なぜこのような食い違いが生じるのかについては、Yuchen Jinと@myapdxの両氏が投稿の中で、モデルが現実世界の物理法則をどのように理解しているかにタスクが対応していると述べている。モデルは、言語、幾何学、物理学、プログラミングの理解を組み合わせて、最終的なシミュレーション結果を導き出す必要がある。最初の2ラウンドの結果から、o3-miniは物理学のための最高のビッグモデルになる可能性を秘めているようだ。
一方、OpenAIは昨日のリリースブログで、o3-mini-lowが博士号レベルの科学問題でo1-miniを凌駕することを強調した。o3-mini-highはo1と同程度のパフォーマンスを示し、博士号レベルの生物学、化学、物理学の問題で大幅な改善を見せた。
小さなボールが跳ねるときの重力や摩擦を理解することは、人間にとって難しいことではないが、大規模な言語モデリングの分野では、物体の物理的状態の「世界モデル」を理解するこの能力は、最近まで本当のブレークスルーではなかった。
また、DeepSeek R1には1つのボールしかプログラムされていないことがあるという憶測もある。読者の中にこのような経験をした人はいるだろうか?気軽に議論してほしい。

無断転載を禁じます:チーフAIシェアリングサークル " o3-miniがDeepSeek R1を粉砕:400万回近く再生されたPythonプログラム

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語