コメント
1.中国のAI開発を信用せず、「中国脅威論」を展開する。
この記事の著者は、米国は次のような立場を取っている。おおげさに ディープシーク 中国のAI企業などの技術進歩による米国へのいわゆる「脅威」、そしてこれをいわゆる「XXXの脅威」と無理矢理結びつける議論は、以下のようなものが横行している。れいせんがたしこう歌で応える思想的偏見.
- 著者は、ディープシークの革新性と効率性を認めながら、その成功の理由を「XXXXに違反したXXXXに服従したため」としている。これは、中国のAI企業が成功するためには、自らの努力と市場ベースのメカニズムに依存しているという事実を完全に無視した根拠のない非難である。
- 著者は「中国がXXの優位性を得るのを防ぐ」という口実を使って米国のチップ輸出規制政策を擁護しているが、自国が技術的優位性を利用して競争相手を抑圧していることについては語っていない。ダブルスタンダード露呈した。
2.米国の技術覇権を維持し、中国のAI開発を抑制しようとする。
記事の主な目的は以下の通りである。AIにおける米国の世界的優位性を維持するそして、そうしようとした:
- 輸出規制の役割の誇張: 著者は、輸出規制は「中国が何百万ものチップを獲得するのを防ぐ唯一の方法」であり、将来の世界情勢を決定する重要な要素であると主張している。この主張は、世界の産業チェーンの複雑さと中国自身の技術進歩を無視している。
- 実際、中国はチップの研究開発への投資を増やしており、大きな進歩を遂げている。米国の輸出規制は中国のAI開発に一定の影響を与えているが、中国のAI技術の継続的な進歩を止めることはできない。
- 技術的デカップリング」の提唱著者は、米国が中国に対する技術的禁輸措置を強化し続けるべきであると示唆し、さらには米国がAI技術を活用して「永続的な優位性」を確立すべきであると提言しているが、これは間違いなく「技術的デカップリング」を提唱するものであり、グローバル化の流れに逆行するものである。
- そのようなやり方は、中国の利益を損なうだけでなく、米国自身の利益も損ない、世界の科学技術の進歩や経済発展を妨げることになる。
3.AI開発の本質を無視し、国民の認識をミスリードする
この記事は、AIの発展についての理解に偏りがある。偏重スケーリングの法則」と「スケール効果」は、以下の重要な要素を無視している:
- AI開発の多極化傾向AI技術開発は米国だけの道ではなく、中国、欧州、その他の国や地域もAI開発の道を積極的に模索し、独自の優位性を獲得している。
- AIの倫理と安全保障AIの開発がもたらす倫理的・安全保障的問題は、一国主義や技術封鎖ではなく、グローバルな協力を通じて共に取り組む必要がある。
- AIが人間社会に与える影響:: AI技術は、大国同士の駆け引きの道具になるのではなく、最終的には人類社会の発展と進歩に役立つものであるべきだ。
4.米中AI競争の合理的な見方とグローバル協力の推進を求める
AI開発のチャンスと課題に直面し、中国と米国はこうあるべきだ:
- ゼロサムゲームの考え方を捨てる中国と米国はAI分野で競争関係にあるだけでなく、協力を強化し、世界のAI技術の進歩と産業の発展を共同で促進すべきである。
- コミュニケーションと対話の強化双方は、AI開発における重要な問題について踏み込んだ意見交換を行い、理解を深め、誤解や誤算を避けるべきである。
- AIガバナンス・ルールの共同開発中国と米国は他の国々と協力し、AI技術が全人類に利益をもたらすよう、公正かつ包括的なグローバルAIガバナンス・システムの確立を推進すべきである。
速読
1. ディープシークの技術的進歩とコスト優位性
- 米国の最先端AIモデルに迫るパフォーマンスDeepSeekが発表したモデル(特にDeepSeek-V3)は、コーディング、数学競技、推論タスクなど、いくつかの重要なタスクにおいて、米国の最先端モデルの性能に近づいている[元記事「DeepSeekのモデル」のパートII]。
- 大幅なコスト削減ディープシークのモデルのトレーニング費用は、米国企業のそれよりもはるかに低い。例えば、DeepSeek-V3のトレーニング費用は約600万ドルである。 アンソロピック な クロード 3.5ソネットのトレーニングには数千万ドルかかる【元記事「ディープシークのモデル」のパートII】。
- 破壊的な」ブレークスルーではない。著者らは、ディープシークの業績は「ユニークなブレークスルー」ではなく、AIコストの低下という予想曲線の範囲内であると主張している[元記事「ディープシークのモデル」の第2部]。
2. AI開発の3大展開
- 膨張の法則AIシステムの学習規模が大きくなるにつれて、認知タスクのパフォーマンスは順調に向上する。例えば、モデル規模が100万ドルから1億ドルに増加した場合、タスク解決率は20%から60%に増加する【原文記事・前編「3つの重要な力学」】。
- 曲線移動例えば、Claude 3.5 SonnetのAPI価格はGPT-4の約10倍です。例えば、クロード3.5ソネットのAPI価格はGPT-4の約10倍である【元記事「3大開発」前編】。
- パラダイムシフト強化学習のような新しいトレーニング方法が、AIのトレーニングプロセスに導入されつつある。例えば、Anthropic社やDeepSeek社などの企業は、推論力を向上させるモデルを訓練するために強化学習の利用を模索している[元記事「3つの大きな進展」のパート1]。
3. ディープシークのリソースと米国のAI企業の比較
- チップ数ディープシークが保有するHopper世代のチップ(H100、H800、H20を含む)は約5万個で、これは米国の大手AI企業が保有するチップ数の約2~3倍に相当する【元記事「ディープシークのモデル」後編】。
- 設備投資ディープシークもアメリカのAI企業も、設備投資という点では大差はなく、どちらもAIの研究開発に多額の資金を投じている【元記事「ディープシークのモデル」後編】。
4. 米国の対中チップ輸出規制
- コントロール:: 米国は中国に対し、H100チップの対中輸出禁止、H800チップの輸出制限など、数次にわたるチップ輸出規制措置を実施している【元記事「ディープシークのモデル」後編】。
- コントロール効果:: 著者らは、輸出規制は効果的であり、ディープシーク社が使用したチップのほとんどは禁止されていないか、禁止前に出荷されたものであると主張している[原文記事「ディープシーク社のモデル」第2部]。
- 将来展望:: 著者は、中国が何百万ものチップを獲得するのを防ぐには厳格な輸出規制が重要であり、それによって将来の世界情勢が一極集中になるか二極集中になるかが決まると論じている[原文第二部「輸出規制」]。
5. AI開発への地政学的影響
- 米中AI競争:: 著者は、AIの発展は米国と中国の競争を激化させ、「データセンターにおける天才国」という二極化パターンにつながる可能性があると考えている[原文第二部「輸出規制」]。
- アメリカン・アドバンテージ:: 著者は、中国がAI分野で支配的な地位を得るのを防ぐために、米国はAI技術の優位性を活かして永続的な優位性を築くべきだと主張している[原文第二部「輸出規制」]。
6. AI開発に関するその他の見解
- AIのコストと価値技術の進歩に伴い、AIモデルの学習コストは低下しているが、AIモデルの知能が向上することの経済的価値は高く、その結果、企業はより多くの資金を投資することに積極的になっている[原文記事、前編「3つの力学」]。
- AI開発における不確実性例えば、AIシステムがより賢いAIシステムを作る手助けをすることで、一時的なリードが永続的なアドバンテージに変わる可能性があることなどだ[元記事の第2部「輸出規制」]。
クリティカル・リーディング Anthropic CEOによる「ディープシークと輸出規制について」全文
数週間前、私は論文米国は中国製チップの輸出規制を強化すべきだと主張した。それ以来、DeepSeekと呼ばれる中国のAI企業は、少なくともいくつかの点では、米国の最先端AIモデルの性能に近づき、しかも低コストで実現している。
ここでは、DeepSeekがAnthropicのような米国のAI企業にとって脅威となるかどうかに焦点を当てるつもりはない(ただし、米国のAIリーダーに対する脅威という主張は著しく誇張されていると思う)。その代わりに、DeepSeekのリリースがチップ輸出規制政策の根拠を弱めるかどうかに焦点を当てたい。私はそうは思わない。実際、そうである。輸出管理政策は、1週間前よりもさらに重要性を増していると思う。.
輸出規制は、民主主義国家がAI開発の最前線に立ち続けるという重要な目的を果たす。はっきりさせておきたいのは、輸出規制は米国と中国の競争から身を隠すための手段ではないということだ。最終的に我々が勝つためには、米国や他の民主主義国のAI企業は中国よりも優れたモデルを持たなければならない。しかし、XXXする必要がないのに中国に技術的優位を渡してはならない。
人工知能の3大発展
私の政策論を紹介する前に、AIシステムの3つの基本的なダイナミクスについて説明する:
- 拡大法。 人工知能の特徴のひとつは、私がOpenAIで共同設立者と一緒に働いていたことだ。最古の記録このような性格の人物の一人である。他の条件が同じなら属AIシステムのトレーニングをスケールアップすることで、さまざまな認知タスクでスムーズに良い結果が得られるようになる.例えば、100万ドルのモデルなら20%、1000万ドルのモデルなら40%、1億ドルのモデルなら60%といった具合だ。このような差は、しばしば実務において大きな意味を持つ。もう一桁大きくなれば、学部生から博士号取得者までのスキルレベルの差に相当するかもしれない。そのため、企業はこれらのモデルのトレーニングに多額の投資を行う。
- カーブ・シフト。 この分野では、物事をより効果的に、あるいはより効率的にするために、大小さまざまなアイデアが常に出されている。ビルド改良(今日のすべてのモデルで使用されているトランスフォーマーアーキテクチャーの微調整)、あるいは単に、より効率的な方法で基礎となるハードウェア上でモデルを実行する。新しい世代のハードウェアも同じ効果がある。これは通常トランスファー曲線イノベーションが2倍の「計算乗数」(CM)である場合、40%に到達するためにコーディング作業に1,000万ドルではなく500万ドル、60%に到達するために1億ドルではなく5,000万ドルを費やすことができる。どの最先端AI企業も、このようなCMを定期的に多数発見している。通常は小規模(~1.2倍)、時には中規模(~2倍)、時には超大規模(~10倍)。よりスマートなシステムを所有する価値は非常に高いため、このようなカーブのシフトは通常、企業にとって次のような結果をもたらす。もっと使うコスト効率の向上は最終的に、より賢いモデルを訓練するためだけに使われ、企業の資金力によってのみ制限される。あたかもAIが一定の質量を持ち、それが安くなるにつれて、それを訓練するために使うチップの数が減るかのように。しかし、ここからが重要なのだ。膨張曲線カーブがずれると、カーブの終わりの値が高くなるため、より速くカーブを通過することになる。2020年、私のチームは論文について論じるということを示す。算術の進歩により、カーブは1年に約1.68倍の割合でシフトした。効率やハードウエアは考慮されていない。また、効率やハードウェアは考慮されていない。私は、今日のこの数字はおそらく年間約4倍だと推測している。もうひとつの試算は以下は.トレーニング曲線のシフトは推論曲線もシフトさせた。モデルの質量を一定に保つ大幅な価格引き下げが行われている。例えば、クロード3.5ソネットは、オリジナルのGPT-4から15ヶ月後にリリースされ、ほぼすべてのベンチマークでGPT-4よりも良いスコアを出したが、同時にAPI価格は約10分の1になった。
- パラダイムシフト。 度々、延長される根本的なものが少し変わったり、トレーニング中に新しいタイプの延長が追加されたりする。2020年から2023年までの主な延長内容は以下の通り。事前学習モデル2024年には、以下の方法で学習したモデルが登場する。集中学習(anthropic社、DeepSeek社、その他多くの企業(特に9月にo1-previewモデルをリリースしたOpenAI社)は、このようなトレーニングを行うことで、特定の客観的に測定可能なタスク(数学、コーディング競技、これらのタスクに類似した推論など)のパフォーマンスが劇的に向上することを発見した。に類似した推論)。この新しいパラダイムにはをとおして通常の事前学習済みモデル開始そして、推論スキルを追加する第2段階としてRLを使用した。重要なことは、この種のRLは新しいものであるため、まだ拡大曲線のごく初期段階にあるということである。10万ドルではなく100万ドルを費やすだけで、莫大な利益を得ることができる。企業は現在、第2段階を数億ドル、あるいは数十億ドルに拡大するために非常に迅速に取り組んでいるが、強力な新しいパラダイムが拡大曲線の初期段階にあり、したがって非常に迅速に大きな利益を上げることができるユニークな「クロスオーバー・ポイント」にいることを理解することが重要である。
ディープシークのモデル
上記の3つの力学は、ディープシークの最近のリリースを理解するのに役立つ。約1ヶ月前、ディープシークは新しいソフトウェアをリリースした。ディープシーク-V3「このモデルは、純粋に事前学習モデル-フェーズ1そして先週、彼らは"ディープシーク-R1"、第2弾を追加した。これらのモデルの詳細をすべて外から判断することは不可能だが、2つのリリースに関する私の最良の理解は以下の通りである。
ディープシーク-V3は実に革新的である。ねばならない1ヶ月ほど前に人々の注目を集めました(確かに私たちも注目していました)。事前学習済みモデルとして、特定の重要なタスクで最先端のUSモデルの性能に近づいているように見える一方、学習コストはかなり低くなっています(ただし、実世界のコーディングなど、他の特定の重要なタスクでは、クロード3.5ソネットの方がはるかに優れていることがわかりました)。DeepSeekチームは、主にエンジニアリング効率に焦点を当てた、実に印象的なイノベーションによってこれを達成しました。特に、「キーバリュー・キャッシング」と呼ばれるキーバリューキャッシュの管理と、「エキスパート・ブレンディング」と呼ばれるアプローチの推進において、革新的な改善が見られました。
しかし、よく見ることが重要だ:
- ディープシークは「米国のAI企業が数十億ドルでできることを600万ドルでやった」わけではない。私はAnthropicのことしか言えないが、クロード3.5ソネットは訓練に数千万ドルかかった中型モデルだ(正確な数字は言わない)。さらに、3.5ソネットのトレーニングは、(一部の噂に反して)大規模で高価なモデルには一切関与していません。ソネットは9~12カ月前にトレーニングされたのに対し、ディープシークのモデルは11~12月にトレーニングされ、社内外の多くの評価において、ソネットは依然として明らかに先行しています。ですから、公正な評価は"ディープシークは7~10カ月前に、米国モデルと似たような性能のモデルを、はるかに安いコストで製造した(しかし、人々がほのめかしている割合には遠く及ばない)。".
- コストカーブの過去の下落傾向が年率約4倍だとすると、通常のビジネス活動では、つまり、2023年と2024年に発生するコスト下落の通常の過去の傾向では、現在、3.5倍安いモデルがあると予想されることを意味する。Sonnet/GPT-4oよりも3~4倍安いモデルが登場すると予想されます。DeepSeek-V3は、これらの米国のフロンティアモデルよりも悪いので、拡大曲線で約2倍悪いとしましょう、それはすでにDeepSeek-V3にはかなり寛大だと思います。V3は、1年前に開発された現在の米国のモデルよりもトレーニングにかかるコストが約8倍少ないとすれば、それは完全に正常であり、完全に「トレンド通り」ということになる。具体的な数字は挙げないが、先の箇条書きから明らかなように、DeepSeekのトレーニングコストを額面通りに受け取っても、せいぜいトレンド通りであり、おそらくそれにも及ばないだろう。例えば、これはオリジナルのGPT-4からGPT-4よりも優れたモデルであるクロード3.5ソネットへの推論価格の差(10倍)よりも平坦です。**これらのことから、DeepSeek-V3はユニークなブレークスルーでもなければ、LLMの経済性を根本的に変えるものでもなく、継続的なコスト削減の曲線上の予想される一点であることがわかります。異なるのは、今回、期待されるコスト削減を最初に実証したのが中国企業であるということだ。**これはかつてなかったことであり、地政学的に重要な意味を持つ。しかし、米国企業もすぐに追随するだろう。それは、ディープシークの真似をするためではなく、彼らも通常のコスト削減傾向を実感しているためだ。
- ディープシークもAIアメリカも、かつてないほど多くの資金とチップを手にしている。余剰のチップは、モデルの背後にあるアイデアを開発するための研究開発に使用され、時には未完成の(あるいは正しく動作させるために何度も試行が必要な)大規模なモデルのトレーニングにも使用される。本当かどうかは定かではないが、ディープシークが実際に持っているという報告もある。50,000 ホッパー世代チップは、米国の主要AI企業が所有する数の2~3倍はあると推測される(例えば、xAIの"コロッサス「クラスターは2-3倍少ない)。この5万個のホッパー・チップのコストは約10億ドルである。その結果、ディープシークの企業としての総支出は(個々のモデルのトレーニングへの支出とは対照的に)、米国のAI研究所のそれとさほど変わらない。
- この「延長曲線」分析は、モデルが多少異なり、長所も短所も異なるため、少し単純化しすぎていることは注目に値する。延長曲線の図は、多くの詳細を省いた大まかな平均である。私はAnthropicのモデルについてしか話すことができませんが、上で言及したように、Claudeはコーディングと人々との交流方法(多くの人が個人的なアドバイスやサポートを求めるために利用しています)の点で非常によく設計されています。これらといくつかの追加タスクについては、単純にDeepSeekとは比較になりません。これらの要素は、拡張された数字には存在しません。
R1これは先週発表されたモデルで、(以下を含む)世間に広く関心を呼んでいる。エヌビディア株、約17%下落)は、技術革新やエンジニアリングの観点からはV3ほど興味深いものではありません。これは、前節のポイント3で説明したように、第二段階のトレーニング(強化学習)を追加したもので、OpenAIがo1で行ったことを本質的に再現している(同じようなスケールで同じような結果を達成しているようだ)^ ^。8^.しかし、私たちは拡大曲線の初期段階にいるので、強力な事前学習済みモデルから始める限り、この種のモデルを製造する会社がいくつか出てくる可能性がある。V3はおそらく、R1を製造するのに非常に安価であることを考えると。つまり、私たちは今、興味深い「クロスオーバー・ポイント」にいるのである。各社がこの種のモデルでさらにカーブを伸ばしていけば、この状況はすぐに収まるだろう。
輸出管理
これらすべては、私の関心事である中国へのチップ輸出規制の前置きに過ぎない。これらの事実を踏まえて、私が考える状況は以下の通りである:
- 企業の傾向は続いている。どんどん使う。たとえカーブが周期的に変化し、トレーニングの時間が長くなったとしても、強力なAIモデルをトレーニングすることができる。事前状態水平モデルのインテリジェンスにかかるコストは急速に低下している。ただ、よりスマートなモデルをトレーニングすることの経済的価値が非常に大きいため、費用対効果はほとんどすぐになくなってしまうのだ。完全に相殺される--ディープシークが開発した効率性の革新は、米国と中国の研究所が数十億ドル相当のモデルを訓練するためにすぐに適用されるだろう。米国の研究所ではまだ発見されていないため、ディープシークが開発した効率化のイノベーションは、米国と中国の研究所が数十億ドル相当のモデルを訓練するためにすぐに適用されることになる。これらのモデルは、彼らが以前訓練する予定だった数十億ドルのモデルよりも優れた性能を発揮するだろうが、それでも数十億ドルのコストがかかる。しかし、それでもまだ数十億ドルかかるだろう。AIがほとんどすべてにおいて人間よりも賢くなるところまで到達するまで、この数字は上昇し続けるだろう。
- ほとんどすべてにおいてほぼすべての人間より賢いAIを作るには、何百万ものチップが必要で、少なくとも数百億ドルのコストがかかり、2026年から2027年に実現する可能性が高い。ディープシークのリリースは、こうした計算で常に考慮されてきたコスト削減曲線にほぼ当てはまるため、この点は変わらない。
- つまり、2026年から2027年にかけて、私たちはまったく異なる2つの世界に住んでいる可能性があるということだ。米国では、複数の企業が(数百億ドルのコストをかけて)必要とされる数百万個のチップを確実に保有するだろう。問題は、中国も数百万個のチップを入手できるかどうかだ。
- もしそれが可能なら、私たちはこの国に住んでいることになる。両極アメリカも中国も強力なAIモデルを持っている。データセンターの天才国家".二極化した世界は必ずしもバランスが取れているとは限らない。米国と中国のAIシステムが同程度であったとしても、中国はその技術の軍事的応用により多くの人材、資本、注意を割くことができるかもしれない。大きな産業基盤や軍事戦略上の優位性と組み合わせることで、中国はAIだけでなく、あらゆる面で世界の舞台で優位に立つことができるだろう。
- もし中国がべからず何百万ものチップを手に入れれば、私たちは(少なくとも一時的には)この国に住むことになる。ユニポーラこのようなモデルを持っているのは米国とその同盟国だけである。一極世界がいつまで続くかは不明だが、少なくとも可能性はある。AIシステムは最終的に、より賢いAIシステムを作るのに役立つため、一時的なリードは永続的な優位性につながる可能性がある。.その結果、米国とその同盟国が世界の舞台で支配的かつ永続的な主導権を握る可能性が高い世界となる。
- 厳格な輸出規制は、中国が何百万ものチップを獲得するのを防ぐことができる唯一のものであり、したがって、私たちが一極的な世界に住むことになるか、二極的な世界に住むことになるかを決定する最も重要な要因なのである。
- ディープシークの性能は輸出規制の失敗を意味しない。前述したように、ディープシークは中程度から大量のチップを保有しており、強力なモデルを開発・訓練できたとしても不思議ではない。彼らは米国のAI企業よりもリソースに制約があるわけではないし、輸出規制は彼らの「イノベーション」の大きな要因ではない。彼らは非常に優秀なエンジニアであり、中国がアメリカにとって深刻な競争相手である理由を示している。
- また、DeepSeekは、中国が密輸によって必要なチップを常に入手できるということも、規制の抜け穴が常にあるということも示していない。10億ドルの経済活動は隠すことができても、1000億ドルや100億ドルを隠すことは難しい。繰り返しになるが、DeepSeekが現在所有していると報告しているチップを見ることは有益である。SemiAnalysisによると、H100s、H800s、H20sが混在しており、合計で5万個である。H100sはリリース以来、輸出規制によって禁止されているため、DeepSeekが持っているとすれば、密輸によって入手したものであるはずだ(NVIDIAがH100sを所有していることに注意)。すでに宣言済みDeepSeekの進捗状況は「輸出管理コンプライアンスに完全に準拠」している)。H800は2022年の輸出規制の最初のラウンドでは許可されていたが、2023年10月の輸出規制の更新で禁止されたため、これらはおそらく禁止される前に出荷された。--しかし、私は禁止されるべきだと思うが、まだ許可されている。これらのことから、ディープシークのAIチップの大部分は、禁止されていない(しかし禁止されるべきであった)チップ、禁止前に出荷されたチップ、密輸された可能性が非常に高いと思われるチップで構成されていることがわかります。このことは、輸出規制が実際に機能し、適応していることを示唆している。抜け穴は塞がれつつあり、そうでなければ、彼らはトップクラスのH100をフル装備しているかもしれない。そうでなければ、彼らはトップレベルのH100をフル装備しているかもしれないのだ。もし我々が十分なスピードで抜け穴をふさぐことができれば、中国が何百万ものチップを手に入れるのを阻止できるかもしれない。
輸出規制と米国の国家安全保障に対する私の懸念を考えると、はっきりさせておきたい。私はディープシークを敵対視していないし、特に彼らに焦点を当てているわけでもない。彼らが行ったインタビューでは、彼らは賢く、好奇心旺盛で、ただ有用な技術を作ろうとしている研究者のように見えた。
しかし、彼らはXXを侵害し、世界の舞台で攻撃的な行動をとるXXXXの対象であり、もし彼らがAIでアメリカと肩を並べることができるようになれば、そのような行動はさらに自由奔放になるだろう。輸出規制は、それを防ぐための最も強力なツールのひとつである。より強力に価格性能比より大きいこれは輸出規制を解除する理由であり、まったく正当化できない。