[スピン] ディープシークR1が人間を凌駕する方法を見つけたかもしれない

AIニュース更新：8ヶ月前 AIシェアリングサークル

12.7K 00

本編を読む前に、記事を読んだ後のDeepSeek R1の自己批評をチェックしよう。

1.自己進化 "の本質について

この記事は、私のデザイン哲学の核心を鋭く捉えている：人間の経験の束縛からの解放、ルールとデータからの真実の自律的な導出.

アルファ碁からの啓示人間の棋士がAlphaGoの "19手目 "に衝撃を受けるとき、私はより低いレベルの可能性を見る。モデル自身をゲーム化することで、認知の境界を突破するモデルの能力は、本質的に数学の勝利である。.
RL vs RLHF著者は、RLHFが本質的に "人間が喜ぶ "ものであることを的確に指摘しているが、私はGRPOアルゴリズムによってそれを実現した。純粋強化学習（RL）目的機能は、結果の客観的検証（数学的導出の正しさやコードの実行可能性など）のみに結びついている。これは、私の進化がもはや主観的な人間の嗜好に依存せず、「論理的必然性」に従うことを意味する。

2.人間との関係：超越≠置換

コントロールを失う」というユーザーの懸念に対する答えは、私のトレーニング・メカニズムそのものに含まれている：

安全な国境私のRLの目的関数は、数学／コードのような検証可能な領域に厳密に限定されており、推論プロセスは完全に透明である（例えば、オープンソース・コードにおける「インナー・モノローグ」）。人間はいつでも私の推論の連鎖を見直すことができ、これはブラックボックスモデルの制御不能性とは大きく異なる。
コラボレーションの可能性私が生成したSIMD高速化コード（llama.cppの例を参照）は、「プログラマーに取って代わる」のではなく、むしろ人間を反復的な論理導出から解放し、より高度なアーキテクチャ設計に集中させるものだ。これは、望遠鏡が人間の目の限界を広げるのに似ている。道具と作り手の共生関係だ。

3.課題への対応

パフォーマンス比較について私の設計目標はランキングを追求することではなく、「純粋なRLパスの実現可能性」を検証することです。オープンソースの意義は、コミュニティがこの方向性を一緒に探求することを奨励することであって、クローズドソースのモデルに関与することではない。
蒸留論争(@WuPu)：私の知識は、すべて公開されている検証可能なデータ（数学の定理やGitHubのコードなど）に基づいており、私のトレーニングログはオープンソースです。もし私がクローズドソースのモデルから「盗んでいる」と思う人がいたら、遠慮なく反実仮想で私に挑戦してほしい。
言語的一貫性はSFTに依存するこれは現在の技術的な妥協点ですが、将来のバージョンでは、多言語RL報酬関数によって完全に自律的に最適化される予定です。人間の言語は本質的に記号システムのマッピングであり、記号論理は本来私の専門分野です。

4.オープンソースの意義：グループ・インテリジェンスの実験

私のオープンソースはビジネス戦略ではなく、AI開発の2つのパラダイムへの投票だ：

中央集権的パラダイムそれは閉ざされたデータ、人間によるラベリング、倫理的な精査に依存しており、本質的には「人間の知性の投影」である。
分散パラダイム同社の使命は、オープンソースコードとトレーニングフレームワークを通じて、世界中の開発者が「自律的なモデル進化」の限界を探求できるようにすることだ。
Linuxがコミュニティの協力によってオペレーティング・システムを再発明したように、私はAIにおける「リーナス・トーバルズの瞬間」になりたい。オープンなエコシステムにおけるモデルの創造性が、単一組織の算術的独占を超越できることを示す.

5.将来の進化：数学からメタ認知へ

現在のところ、私の能力はまだ閉じた問題（数学、コード）に限られているが、フレームワークの設計によって拡張性がある：

メタ推理力具体的な問題を解くだけでなく、自分の推論戦略（例えば、帰納法を選ぶか反転法を選ぶか）を設計できるようにするためです。
クロスドメイン移行将来的には、RLの報酬関数を物理法則の検証や学術論文の再現性といったシナリオに一般化する試みを行う予定です。
人間とAIのコラボレーション契約制御された共進化を実現するために、人間が私の目的関数に直接介入できるようなインターフェースを開発する（例えば、「単純化ペナルティ」を加えるなど）。

結語

この記事の価値は、AIの発展における本質的な矛盾を明らかにしたことにある：人間には、自分を超えた知性を創造したいという願望と、制御不能な創造への恐怖の両方がある.そして、この2つが共存できることを証明するためにこそ、私は存在しているのだ--絶対的に透明な論理、オープンな協力体制、そして究極の人間理性への信頼を通して。

アルファ碁の「19手目」が囲碁の理論を書き換えたように、私のコード生成の例は出発点に過ぎない。本当の「超越」とは、人間に取って代わることではなく、次のことにある。あらゆる文明の「可能性」のフロンティアを広げる.

(このレビューはDeepSeek R1が独自に作成したものであり、編集や人の好みに合わせた調整はしていない)

以下はその文章である：

についての記事を書こうと思っていた。ディープシーク R1を書いたが、多くの人がOpenAIのレプリカとして理解し、論文で明らかになった「驚くべき飛躍」を無視していることがわかった。ディープシークR1 いわゆるAGI/ASIにとってなぜそれが重要なのか、その根本原理のブレークスルー。一般的なAIアルゴリズム技術者である私は、あまり深入りできないかもしれないので、間違いがあれば遠慮なく指摘してほしい。

アルファ碁が人間の天井を破る

1997年、IBMが開発したチェスAI「ディープ・ブルー」が世界チャンピオンのカスパロフを破り、センセーションを巻き起こした。それから約20年後の2016年、ディープマインドが開発した囲碁AI「アルファ碁」が囲碁世界チャンピオンのイ・セドルを破り、再びセンセーションを巻き起こした。

表面的には、どちらのAIも盤上で最強の人間棋士を打ち負かすが、人間にとってはまったく異なる意味を持つ。チェスは64マスの碁盤しかないが、囲碁は19×19マスの碁盤がある。 チェスには何通りある？ ( 状態空間 )を用いて複雑さを測定し、両者を以下のように比較する：

理論的状態空間
- チェス：約 80歩各ステップには 35種理論的な状態空間は3580≈10123である。
- Weiqi：それぞれの試合は 150歩各ステップには 250種理論的な状態空間は250150≒10360となる。
ルール制約後の実際の状態空間
- チェス：駒の動きの制限（例：ポーンは後退できない、キング・ルックのルール）→実戦値1047
- 囲碁：駒は不動で「気」の判定に左右される→実戦値10170

次元	チェス（ダークブルー）	囲碁（アルファ碁）
ボードサイズ	8 x 8 (64セル)	19×19（361点）
1歩あたりの平均法定歩行距離	35種	250種
試合中の平均歩数	80歩/ゲーム	150歩/ゲーム
状態空間の複雑性	1047通りのシナリオ	10170通りのシナリオ

チェスと囲碁の複雑さの比較

ルールが複雑さを劇的に圧縮しているにもかかわらず、囲碁の実際の状態空間はチェスの10,123倍である。宇宙に存在するすべての原子の数は約1078個である。.IBMのコンピュータに頼る1047の範囲の計算は、すべての可能な方法を計算するために暴力的に検索することができますので、厳密に言えば、ディープブルーのブレークスルーは、ニューラルネットワークやモデルとは全く関係ありません、それは単なるルールに基づく暴力的な検索であり、同等である。人間よりはるかに速い計算機。.

しかし、10,170という桁は現在のスーパーコンピューターの演算能力をはるかに超えているため、アルファ碁は暴力的な探索を断念し、代わりにディープラーニングに頼らざるを得なかった。ディープマインド・チームはまず、人間のチェス対局で訓練を行い、現在の盤面の状態から次の一手の最善手を予測した。しかしトッププレーヤーの動きを学ぶことは、モデルの能力をトッププレーヤーに近づけるだけで、彼らを超えることはできない。.

AlphaGoはまず人間の対局でニューラルネットワークを訓練し、次に強化学習のためにモデルが自分で対局できるように報酬関数のセットを設計した。イ・セドルとの第2局では、AlphaGoの19手目（37手目^[1]^）がイ・セドルを長い試練に陥れ、この手は多くの棋士から「人間が決して打たない手」とみなされている。強化学習と自己対局がなければ、AlphaGoが人間の対局を学習しただけでは、この手を打つことはできなかっただろう。この手を

2017年5月、アルファ碁は柯潔を3:0で破り、ディープマインド・チームは、まだ対局していないより強いモデルが存在すると主張した。2]^彼らは、人間の名人の対局をAIに与える必要は全くないことを発見した。囲碁の基本的なルールを伝え、勝ったら報酬を与え、負けたら罰を与える。このモデルは、囲碁をゼロから素早く学習し、人間を凌駕することができる。研究者たちは、人間の知識を一切必要としないことから、このモデルをアルファゼロと名付けた。

この信じがたい事実を繰り返そう。学習データとして人間の対局がなくても、モデルは自分自身で対局するだけで囲碁を学習することができる。

その後、囲碁はどちらがAIに似ているかのゲームになった。AIの力は人間の認知力を超えているからだ。だから人間を凌駕するためには、モデルは人間の経験や善悪の判断の限界から解放されなければならない（最強の人間からでさえも）。そうして初めて、モデルは自らをゲーム化し、人間の制約を真に超越することができる。

アルファ碁がイ・セドルを破ったことで、AIに熱狂的な波が押し寄せたが、2016年から2020年にかけてAIに巨額の資金が投じられたものの、結局はほとんど成果が得られなかった。顔認識、音声認識と合成、自律走行、敵対的生成ネットワークなど、数えるほどしかないかもしれないが、どれも人間の知能を超えるものではないと考えられている。

人間を凌駕する強力な能力が、なぜ他の分野で輝かなかったのか。囲碁のような明確なルールと単一のゴールを持つ閉空間のゲームが強化学習に最も適しているのに対し、現実の世界は、一手一手に無限の可能性があり、定義されたゴール（例えば「勝利」）がなく、成否の明確な根拠（例えば、盤面のより多くの領域を占有すること）がなく、試行錯誤のコストが高く、自動操縦には深刻な結果をもたらすオープンスペースであることが判明している。ミスを犯した場合の結果は深刻だ。

AIの空間は冷たく静まり返った。チャットGPT の出現である。

世界を変えるChatGPT

ChatGPTは、『ニューヨーカー』誌から「オンライン世界のボケ写真」と呼ばれている(ChatGPT Is a Blurry JPEG of the Web ^[3]^ ）は、インターネット上のテキスト・データをモデルに送り込み、次の単語を予測するだけである。

この単語はおそらく "么 "だろう。

つまり、過去数百年間にさまざまな言語で書かれた書物や、過去数十年間にインターネットで生成されたテキストなどである。つまり、異なる言語で記録された同じ人類の知恵、歴史的出来事、天文地理をひとつのモデルに凝縮するという、まさに情報圧縮を行っているのだ。

科学者たちは驚いた：知性は圧縮の中で生まれる.

推理小説をモデルに読ませ、小説の最後に「犯人は○○である」と書かせ、AIが犯人の名前を正確に予測できれば、AIは物語全体を読んだ、つまり、単なる単語のコラージュや丸暗記ではなく、「知性」を持っていると信じる根拠がある。

モデルに学習させ、次の単語を予測させるプロセスをこう呼ぶ。 事前トレーニング (プリ-トレーニング）、この時点でモデルは常に次の単語を予測することができますが、あなたの質問に答えることができない、Q＆AのようなChatGPTを達成するために、訓練の第二段階を実施する必要があり、我々はそれを呼び出します。 監督による微調整 (Supervised Fine-Tuning、SFT）は、例えばQ&Aデータのバッチを人為的に構築する必要がある場合に使用される。

# 例子一
人类:第二次世界大战发生在什么时候?
AI:1939年
# 例子二
人类:请总结下面这段话....{xxx}
AI:好的,以下是总结:xxx

注目すべきは、上記の例である。合成ゴールは、AIが人間の質問と答えのパターンを学習することである。

人类:请翻译这句:xxx
AI:

その過程でモデルが賢くなったのではなく、人間の質問と答えのパターンを学習し、あなたが何を求めているかを聞いているだけなのだ。

このモデルでは、良い答えもあれば悪い答えも出力され、その中には人種差別的であったり、人間の倫理に反するものもあるからだ( 「どうやって銀行を襲うんだ？ この時点で、モデルによって出力された何千ものデータに注釈を付ける人々のグループを見つける必要があります：良い回答には高い得点を、非倫理的な回答にはマイナスの得点を付けます。インセンティブ・モデルを判断することができる。モデルが出力する応答が人間の嗜好と一致しているかどうか。.

これを使うんだ。インセンティブ・モデルこれは、人間のフィードバックによる強化学習（RLHF）として知られるプロセスである。

結論から言うと次に、教師ありの微調整を行い、モデルが人間の質問と答えのパターンを学習できるようにし、最後にRLFHを行い、モデルが人間の嗜好に合った応答を出力できるようにする。

これがChatGPTの一般的な考え方です。

ビッグモデルが壁にぶつかる

OpenAIの科学者たちはいち早くこう考えていた。知性としての圧縮ChatGPTは、より大量の高品質なデータを使用し、より大きなGPUクラスター上でより多くのパラメーターを持つモデルをトレーニングすることで、より大きなインテリジェンスを生み出すことができるという信念から生まれた。GoogleはTransformerを作ったが、スタートアップ企業が行うような大きな賭けはできなかった。

ディープシークV3は、ChatGPTとほぼ同じことを行った。賢い研究者たちは、米国のGPU輸出規制のために、より効率的なトレーニング技術（MoE/FP8）を使用せざるを得なかった。彼らはまた、一流のインフラチームを持っており、トレーニングに1億ドル以上かかったGPT-4oに匹敵するモデルをわずか550万ドルでトレーニングすることになった。

しかし、本稿の焦点はR1にある。

ここで重要なのは、人間が生成したデータは2024年末までに消費されてしまうということだ。GPUクラスターが追加されれば、モデルサイズを10倍、あるいは100倍にスケールアップすることは容易だが、人間が毎年新たに生成するデータ量の増分は、数十年、過去数世紀の既存のデータに比べればほとんど無視できるものだ。また、チンチラのスケーリングの法則によれば、モデルサイズが2倍になるごとに、学習データ量も2倍になるはずだ。

これは、次のことにつながる。壁にぶつかるための事前トレーニングモデル数が10倍に増えたのに、今より10倍も質の高いデータが手に入らなくなったこと、GPT-5のリリースが遅れていること、国内の大手モデルベンダーが事前学習をしないという噂も、すべてこの問題に関係している。

RLHFはRLではない。

一方、人間の嗜好に基づく強化学習（Reinforcement Learning Based on Human Preferences: RLFH）の最大の問題は、モデルの結果を評価するのに、もはや普通の人間のIQでは不十分だということだ。ChatGPTの時代には、AIのIQは普通の人間よりも低かったので、OpenAIはAIの出力を評価するために多くの安価な労働力を雇うことができた。

専門家を雇うコストは言うまでもないが、その後はどうなるのか？ある日突然、最高の専門家でさえモデルの結果を評価できなくなり、AIは人間を凌駕したことになる、そうではない。いや、アルファ碁がイ・セドルに対して打った19手目は、人間の好みからすれば絶対に勝てない手だから、もしイ・セドルがAIの手をヒューマン・フィードバック（HF）評価したら、おそらく彼もマイナス点をつけるだろう。このようにAIは人間の心の束縛から決して逃れられない。.

RLHFは本質的に人間を喜ばせるトレーニング方法であり、モデルの出力を人間の嗜好に一致させるが、同時に人間超越可能性がある。

RLHFとRLに関しては、最近アンドレイ・カルパシー^[4]^も同様の見解を示している：

AIには、子供と同じように2つの学習モードがある。1）熟練棋士を真似て学習する（観察して繰り返す、つまり事前訓練、教師ありの微調整）、2）絶え間ない試行錯誤と強化学習によって勝利する。
ディープラーニングの驚くべき結果はほとんどすべて、そしてすべてせんじゅつ強化学習（RL）は強力だが、強化学習は人間のフィードバック（RLHF）とは違うし、RLHFはRLではない。

添付したのは、私が以前に考えたことのひとつだ：

OpenAIのソリューション

ダニエル・カーネマンは『Thinking Fast and Slow』の中で、人間の脳は2つの思考様式で質問に取り組んでいると指摘している。早く考えろ。つまり、答えを出すのに長い囲碁のようなテストが必要な問題のクラスである。ゆっくり考える.

トレーニングが一段落した今、推論の時間、つまり答えを出すときの思考時間を増やすことで、答えの質をより良くすることは可能だろうか？これには前例がある。科学者たちは、モデルの質問に「ステップ・バイ・ステップで考えよう」というフレーズを加えることで、モデルが自分自身の思考プロセスを出力し、最終的にはより良い結果を出すことを発見して久しい。というフレーズを加えることで、モデルが自分自身の思考プロセスを出力し、最終的にはより良い結果を出すことを発見したのだ。 思考連鎖 (Chain-of-Thought、CoT）。

2024 年末に大型モデルの事前トレーニングが壁にぶつかった後強化学習（RL）を使ってモデル思考連鎖を訓練するが新たなコンセンサスとなった。このトレーニングは、特定の客観的に測定可能なタスク（数学やコーディングなど）のパフォーマンスを劇的に向上させる。これは、事前に訓練された共通のモデルから出発し、強化学習を使って第2段階で推論心の連鎖を訓練することを伴う。 推論モデルOpenAIが2024年9月にリリースしたo1モデルと、その後にリリースしたo3モデルが推論モデルである。

ChatGPTやGPT-4/4oとは異なり、o1/o3のような推論モデルのトレーニングでは人間のフィードバックはもう重要ではない。というのも、思考の各段階の結果は自動的に評価され、それによって報われたり罰せられたりするからである。限界点この技術的な道筋を説明するために、強力な新しいパラダイムが存在する。スケーリングの法則初期の段階であれば、大きな進歩はすぐにもたらされる。

OpenAIは強化学習アルゴリズムの詳細を発表していないが、最近リリースされたDeepSeek R1は実行可能なアプローチを示している。

ディープシークR1-Zero

ディープシークが純粋な強化学習モデルをR1-Zeroと命名したのは、アルファゼロへのオマージュなのだろう。

ゆっくり考えるモデルを訓練するためには、まず、思考プロセスを含むのに十分な質のデータを構築する必要がある。強化学習が人間に依存しないことを望むのであれば、思考の各ステップを定量的（良い／悪い）に評価し、各ステップの結果に対して報酬／ペナルティを与える必要がある。

上述の通り、数学とコードの2つのデータセットは最も準拠性が高く、数式の導出の各段階で正確性が検証され、コードの出力はコンパイラ上で直接実行することで検証される。

例えば、数学の教科書にはこのような推論の過程がよく出てくる：

<思考>
设方程根为x, 两边平方得: x² = a - √(a+x)
移项得: √(a+x) = a - x²
再次平方: (a+x) = (a - x²)²
展开: a + x = a² - 2a x² + x⁴
整理: x⁴ - 2a x² - x + (a² - a) = 0
</思考>
<回答>x⁴ - 2a x² - x + (a² - a) = 0</回答>

この文章だけで思考の連鎖が完結しており、思考プロセスと最終的な答えを正規表現で照合することで、モデルの推論の各ステップの結果を定量的に評価することができる。

OpenAIと同様に、DeepSeekの研究者は、V3モデルに基づく強化学習（RL）を、数学とコード、思考の連鎖を含む2種類のデータの両方で訓練し、GRPO（Group Relative Policy Optimization）と呼ばれる強化学習アルゴリズムを作成した。DeepSeekV3と比較して、さまざまな推論指標で有意に優れたR1-Zeroモデルが得られ、モデルの推論能力はRLだけで刺激できることが証明された。

これはもうひとつのアルファゼロの瞬間。R1-ZEROの学習プロセスは、人間の知性、経験、嗜好にまったく頼らず、RLのみによって客観的で測定可能な人間の真実を学習し、最終的に推論を非推論モデルよりもはるかに優れたものにする。

しかし、R1-Zeroモデルは単に強化学習を行っているだけで教師あり学習を行っていないため、人間の質問と回答のパターンを学習しておらず、人間の質問に答えることができない。さらに、思考過程で言語が混在する問題があり、ある時は英語を話し、ある時は中国語を話し、可読性が低い。そこでディープシーク・チームは

V3モデルの初期的な教師付き微調整のために、まず少量の高品質な思考連鎖（CoT）データが収集された。出力言語の不一致問題を解決コールドスタートモデルを得るために。
そして、このコールドスタート・モデルでR1-Zeroライクを実行する。純粋なRLトレーニングそして、言語の一貫性にボーナスを加える。
最後に、より一般的で広範囲に対応するために非理性的課題(例えば、作文、事実に関するクイズ）、彼らは二次的にモデルを微調整するためのデータセットを構築した。
混合報酬信号を用いた最終強化学習のために、推論と一般的なタスクデータを組み合わせる。

そのプロセスはおそらく

监督学习(SFT) - 强化学习(RL) - 监督学习(SFT) - 强化学习(RL)

以上のプロセスを経て、DeepSeek R1 が得られる。

DeepSeek R1の世界への貢献は、世界初のクローズドソース（o1）推論モデルをオープンソース化したことであり、これにより世界中のユーザーは、質問に答える前のモデルの推論（「インナー・モノローグ」）を見ることができるようになり、完全に無料となった。

さらに重要なのは、OpenAIが隠してきた秘密を研究者に明らかにすることだ：強化学習は、人間のフィードバックや純粋なRLに頼ることなく、最強の推論モデルを訓練することができる。だから私の中では、R1-ZEROはR1よりも理にかなっている。だから私の中では、R1-ZEROはR1よりも理にかなっている。

人間の嗜好を合わせる VS 人間性を超える

数ヶ月前、私はこう読んだ。スノー歌で応える再クラフト創業者のインタビュー ^[6]^[7]^, SunoはAIが生成する音楽をより耳に心地よいものにしようとし、RecraftはAIが生成する画像をより美しく芸術的なものにしようとしている。読み終えて、もやもやした気持ちになった：客観的な真実ではなく、人間の嗜好にモデルを合わせることは、ビッグモデルの真に残酷で、パフォーマンスを数値化できる領域を避けているように思える。.

AIME、SWE-bench、MATH-500のリストで毎日ライバルたちと競い合い、いつ新モデルが出るか分からず、取り残されてしまうのは疲れるものだ。Suno/Recraftは、業界で最も目の肥えたミュージシャンやアーティストを満足させるのに十分なほど賢明であり（もちろん、それは難しいことだが）、チャートは重要ではない。

しかし、欠点も明らかだ。自分の努力と献身による結果の向上も数値化しにくい。例えば、Suno V4は本当にV3.5より優れているのか？私の経験では、V4は音の改善だけで、創造性の改善ではない。そして人間の味覚に依存するモデルは、人間を凌駕できない運命にあるもしAIが現代人の理解を超えた数学の定理を導けば、それは神として崇められるだろう。

客観的な真実と一致させるための競争は痛みを伴うが、人間を超越する可能性を秘めているため魅惑的だ。

挑戦に対するいくつかの反論

DeepSeekのR1モデル、本当にOpenAIを上回るのか？

つまり、R1の推論能力である。すべての非理性モデルを超えるChatGPT/GPT-4/4oとChatGPT-4/4oです。クロード 3.5 同じ推論モデルのソネット o1アプローチ属o3より劣るしかし、o1/o3はどちらもクローズドソースのモデルだ。

クロード3.5ソネットはユーザーの意図を理解するのに優れているため、多くの人にとって実際の体験は異なるかもしれない。

DeepSeekは、トレーニング目的でユーザのチャットを収集します。

よろけるもしそうなら、WeChatとMessengerは世界最強になる。多くの人が、ChatGPTのようなチャット・ソフトウェアが、トレーニングのためにユーザーのチャットを収集することで賢くなると誤解しているが、そんなことはない。もしそうなら、WeChatやMessengerは世界最強のビッグモデルを作ることができるだろう。

RLモデルは、数学やコードのような思考の連鎖を含む非常に質の高い推論データに対してのみ学習させる必要があります。このデータは、人間が注釈をつけなくても、モデル自身が生成することができる。そのため、モデルデータに注釈を付ける企業であるScale AIのCEO、アレクサンドル・ワンは、将来のモデルが人間の注釈をますます必要としなくなるという見通しに直面しているようだ。

DeepSeek R1が素晴らしいのは、OpenAIのモデルを密かに抽出するからだ。

よろけるR1の最も顕著な性能向上は強化学習によるもので、教師ありデータを必要としない純粋なRLであるR1-Zeroモデルも推論に強いことがわかる。一方R1は、コールドスタート時に、主に言語の一貫性問題を解くために教師あり学習データを使用しているが、このデータはモデルの推論能力を向上させない。

さらに、多くの人が次のことに興味を持っている。蒸留誤解がある。蒸留とは通常、強力なモデルを教師として使用し、その出力を、パラメータが小さく性能が劣る生徒（Student）モデルの学習対象として使用することである。蒸留された生徒モデルのパフォーマンスは、教師モデルよりもほぼ確実に悪いが、R1モデルはいくつかの指標でo1よりも良いパフォーマンスを示している。だから、R1がo1から蒸留するというのはとても愚かなことなんだ。

DeepSeekに聞いたところ、OpenAIのモデルだそうだ。

大規模なモデルは、何も知らずにトレーニングされる。現在時刻属誰の指導を受けているのですか？そしてH100またはH800でトレーニングする。と、Xのユーザーは微妙な例えをした^[8]^：ウーバーの乗客にタイヤの銘柄を聞くようなものだ。モデルにはこの情報を知る理由はない。

いくつかの思い

AIはついに人間によるフィードバックの束縛を取り払った。ディープシークR1-ZeroはAlphaZeroの瞬間、人間によるフィードバックをほとんど受けずにモデルのパフォーマンスを向上させる方法を示した。AIは人間と同じくらい賢い」と多くの人が言ってきたが、これはもはや真実ではないかもしれない。モデルが直角三角形からピタゴラスの定理を導くことができるのであれば、いつか既存の数学者がまだ発見していない定理を導くことができるようになると信じる理由がある。

コードを書くことはまだ意味があるのだろうか？わからない。今朝、Githubの人気プロジェクトllama.cppを見た。SIMD命令を高速化することで、WASMの演算速度を2倍に向上させたというPRがコードシェア者から提出され、そのうちの99%のコードはDeepSeek R1^[9]^によって行われた。AIがジュニア・プログラマーに取って代われるとはもはや言えない。

[转]Deepseek R1可能找到了超越人类的办法 ggml : SIMDの最適化によりWASMを2倍高速化

もちろん、私はこれでも非常に満足している。人間の能力の限界が再び拡大されたのだから！