親愛なる友人たちへ。
今週 ディープシーク (i)中国がジェネレーティブAIで米国に追いつきつつあり、AIのサプライチェーンに大きな影響を与えていること、(ii)オープンな重み付けモデルがベースモデル層をコモディティ化しつつあり、アプリケーション開発者にチャンスをもたらしていること、(iii)スケールアップだけがAIの進歩の唯一の方法ではないこと、などである。業界が演算能力に高い関心を寄せ、誇大宣伝しているにもかかわらず、アルゴリズムの革新はトレーニングコストを急速に削減している。
一週間ほど前、中国のディープシーク社が ディープシーク-R1 ベンチマークではOpenAI o1に匹敵する性能を発揮するこのモデルは、MITライセンスの下でウェイトを公開している。先週のダボス会議では、非技術的なバックグラウンドを持つ多くのビジネスリーダーからこの件について質問を受けた。月曜日の株式市場では「ディープシーク売り」が出た。エヌビディアを含む多くの米国ハイテク企業の株価が急落した(本稿執筆時点では一部回復している)。
ディープシークは次の点を強調していると思う:
米国との差を縮めつつある中国のジェネレーティブAI..ChatGPTが2022年11月にリリースされると、ジェネレーティブAIでは米国が中国を大きくリードする。人々の認識が変わるのは遅いので、最近では中国が遅れていると思っている中国や米国の友人がまだいる。しかし実際には、この2年間でこの差は急速に縮まっている。via lit.一般原則に関する万の質問(慣用句);fig.長い質問と回答のリスト (私のチームは何カ月も使っている)、 キミ InternVLやDeepSeekのような中国のモデルによって、中国がその差を縮めていることは明らかであり、ビデオ生成のような分野では一時的にリードしていたことさえある。
DeepSeek-R1が詳細な技術レポートとともにオープンウェイトでリリースされることは心強い。これとは対照的に、いくつかの米国企業は、「AIの絶滅」のような仮定のリスクを誇張することで、オープンソースを制限する政策を推進してきた。オープンソース/オープンウェイトモデルがAIサプライチェーンの重要な一部となったことは今や明らかである。米国がオープンソースをブロックし続ければ、中国がサプライチェーンを支配することになり、最終的にはほとんどの企業が米国の価値観よりも中国の価値観を反映したモデルを使用することになるだろう。
オープン加重モデルは、ベースモデル層をコモディティ化する.先に述べたように、大規模な言語モデルTokenの価格は急速に下がっており、オープンウェイトはこの傾向を加速させ、開発者により多くの選択肢を提供する。そして、DeepSeek R1はわずか2.19ドル。この30倍近い価格差から、値下げ動向が広く注目されている。この30倍近いスプレッドが、広く注目を集める値下げ傾向につながっている。
ベースモデルのトレーニングやAPIアクセスの販売ビジネスには課題が多い。この分野の多くの企業は、トレーニングにかかる高いコストを回収する方法をまだ模索している。AI's $600 Billion Conundrum(AIの6000億ドルの難問)」という記事は、この課題を雄弁に物語っている(しかし、はっきり言って、ベースモデル企業は素晴らしい仕事をしていると思うし、彼らの成功を楽しみにしている)。対照的に、基本モデルに基づくアプリの構築には大きなビジネスチャンスがある。他の企業はトレーニングモデルに何十億ドルも投資しているので、顧客サービスのチャットボット、電子メールの要約者、AI医師、法的文書アシスタントなどのアプリケーションを開発するために、数ドルでそれらを手に入れることができる。
AIの進歩はスケーリングだけに依存しない..モデルのスケールアップが進歩を促すという議論が横行している。公平を期すため、私は早くから規模拡大論を唱えてきた。企業は、資本を増やせば(i)規模が拡大し、(ii)業績が着実に向上するというストーリーを宣伝することで、何十億ドルもの資金を調達した。その結果、他の複数の進歩手段を犠牲にして、規模拡大に過度に注力することになった。米国でのAIチップ禁止令に後押しされ、DeepSeekチームは、より弱いH800 GPU上で多くの最適化を革新しなければならなかったが、最終的にモデル学習コスト(研究投資を除く)を600万ドル以下に抑えることができた。
これが実際に算術需要を減少させるかどうかはまだわからない。商品の単価が下がると、代わりに総支出が増えることもある。長い目で見れば、人間の知能や演算能力に対する需要に上限はほとんどないと思う。だから、たとえコストが下がったとしても、人間はより多くの知的資源を消費するだろう。
ソーシャルメディアでは、ディープシークの進展に関する相反する解釈が溢れ、ロールシャッハのインクブロットテストのようにさまざまな立場がマッピングされている。DeepSeek-R1の地政学的インパクトはまだ完全には実現されていないと思うが、AIアプリケーション開発者にとっては恩恵である。私のチームはすでに、オープンで高度な推論モデルの助けを借りなければ実現できない新しいアイデアのブレインストーミングを始めている。今はまだ、AIアプリケーションを構築する絶好の時期なのだ!