AIパーソナル・ラーニング
と実践的なガイダンス

カーソルは爆発的な人気だが、国産AIプログラミングの出口はカーソルではない

2021年、マイクロソフトはGitHub Copilotを発表し、プログラミング界で最も注目されるAIツールに躍り出た。

GitHub Copilotは、関数名、コメント、コードスニペットなど、ユーザーから提供されたコンテキスト情報に基づいて、完全なコード関数を自動的に生成することができる。


これは、120億のパラメータサイズを持ち、コーディングタスクのために特別に最適化されたGPT-3の初期バージョンである。これは、Transformerアーキテクチャに基づく大規模なパラメータ・モデルが、コード領域で本当に「出現」した初めての例である。

ギットハブ・コパイロットは世界中の開発者のAIプログラミングへの情熱に火をつけ、MITの4人の学部生がソフトウェア開発を変えるという夢を持って集まり、2022年にアニスフィアという会社を設立した。

 

マイクロソフトを主な競合相手として「堂々と呼び捨て」にしているアニスフィアは、マイクロソフトのVisual Studio CodeがIDE市場を支配している一方で、アニスフィアは異なる製品を提供する機会を得ていると共同設立者のマイケル・トゥルエル氏が明言した。アニスフィアは異なる製品を提供する機会を得た。

 

マイケル・トゥルエル(右端)

 

マイクロソフトは、3年も経たないうちに、このあまり知られていないチームが業界に重い "爆弾 "を投げつけ、世界にAIプログラミング熱の新ラウンドを引き起こし、同社も4カ月で評価額25億ドルのユニコーンに躍り出るとは想像していなかったかもしれない。

 

1.カーソルのヒットの要因は?

2024年8月、テスラの元AIディレクター、アンドレイ・カルパシーは、X上で「Cursor」というコードエディターを称賛するツイートを数回送り、「CursorはGitHub Copilotを駆逐した」と述べた。

同月、カーソルの母体であるアニスフィアは、評価額4億ドルで6000万ドルのシリーズAラウンドの資金調達を完了した。

 

Cursorの素晴らしい機能には、複数行の編集、ファイル間のコンテキスト補完、質問、次のアクション予測などがあります。開発者はTabキーを押し続けるだけで、ファイル全体のコード変更を自動化することができ、Cursorの結果はより正確で速く、遅延はほとんど感じられません。

プログラミングに詳しい人なら、このことがどれほど深いことなのかを知っている。

"複数のファイルにまたがる補完と予測は、開発者自身が正確に表現するのは難しいかもしれないが、実際に使ってみると非常に "クール "な、非常に微妙な要件である。"

数十年の経験を持つ開発者、Tom Yedwab氏も、タブ補完機能が彼の日々のコーディング習慣に最も合っており、最も時間を節約できる機能であることを共有するために手紙を書いた。"ツールが私の心を読み取り、次に何をしようとしているのかを予測してくれるようなものです。"そのおかげで、コードの細部に集中することなく、全体的なアーキテクチャの構築に集中できるのです。トム・イェドワブはこう書いている。

 

カーソルの成功の鍵は、技術的な障壁の高さよりも、彼らが微妙な新しいニーズをいち早く察知し、これまで通ったことのない道にあえて賭けたことにある。

CursorはVS Codeに寄生している。Visual Studio Codeは、マイクロソフト社が開発したフリーでオープンソースのクロスプラットフォーム・コードエディタで、基本的なコード補完機能を備えている。

 

以前は、開発者はVS Codeの機能を拡張するために、あらゆる種類のプラグインを構築したが、VS Code独自のプラグイン・メカニズムには多くの制限がある。例えば、大規模なプロジェクトを扱う場合、プラグインによってはコードのインデックス作成と解析が遅くなる可能性がある。複雑なプラグインの場合、設定プロセスが面倒で、ユーザーが設定ファイルを手動で修正する必要があり、必ず使用する敷居が高くなる。

VSコードのコードを "魔法のように変更 "し、その下にある多くのAIモデルと互換性を持たせ、多くのエンジニアリングの最適化を通じて、IDE全体のユーザーエクスペリエンスを向上させた。

 

カーソルの開発の冒頭では、彼を含め、多くの実務家は、この道は困難であることを楽観視していない、巨大な "非合意 "です。 VSコードの内部アーキテクチャは、コード編集、構文解析、コードインデックス、プラグインシステムおよびその他のモジュールを含む複雑であり、VSコードの異なるバージョン間の違いがあるかもしれない、"マジック "プロセスの互換性を考慮する。マジック修正 "のプロセスでは、互換性を考慮する必要があります。さらに、複数のAIモデルをVS Codeに組み込んだ場合、モデルとエディタ間の相互作用の問題を解決する必要があります。モデルの出力をどのように処理し、コードに適用するか?また、コード生成の待ち時間を最小化する方法は?

 

さまざまな問題を解決するためには、工学的最適化という面倒なシステムが必要になる。2023年だけでも、カーソルは3回のメジャーバージョンアップと40回近い機能の反復を行った。これは、研究開発チーム全員と会社を支える投資家にとって大きな忍耐の試練である。

結局のところ、シリコンバレーは、破壊的イノベーションを生み出す能力を再び世界に証明した。カーソルの成功は、シリコンバレーの非常に古典的な起業家テンプレートである。偏執狂的な技術オタクのグループが、壮大なビジョンを持ち、シリコンバレーの成熟したVCシステムに支えられて、無人の土地に侵入し、カニを食べる最初の人になるための無数の挑戦を背景に、最終的には製品に頼って大成功を収めた。

"起業家精神の魅力は、このような "何の問題もない "プロジェクトであり、彼らはそれを実行に移した"

最近、Anysphereは1億ドルのシリーズB資金調達ラウンドの完了を発表し、26億ドルと評価された。Sacraは、Cursorの年間経常収益(ARR)を2024年11月に6500万ドル(前年比64,00%増)と見積もっている。また、2022年の創業以来、Anysphereはわずか12人しかいない。

 

2.コパイロットはクリア、エージェントは混乱

カーソルは、AIプログラミング回路のリングから出てきた最初の製品ではない。

2024年3月、「世界初のAIプログラマー」と銘打たれた デヴィン は突如として現れ、AIプログラミングに対する業界の情熱に初めて火をつけた。

Devinは、自ら学習し、アプリケーションをエンド・ツー・エンドで構築・デプロイし、バグを修正し、さらには独自のAIモデルを訓練・微調整するフルスタックスキルを備えた自律型エージェントだ。これを支えるコグニションAI社もまた、きらびやかなAIの「ドリームチーム」である。

しかし、Devinは当初デモとしてリリースされ、開発者は手に入れることができなかった。Devinが本稼働したのは2024年12月11日のことで、月額利用料は500米ドルだった。それに比べれば、Cursorの月額20ドルのサブスクリプション料金の方が手頃にさえ思える。

 

Cursorが万人に愛用されているのとは対照的に、Devinに対する開発者の評価は賛否両論ある。Devinはコードマイグレーションを処理し、PR(Pull Requests、コードコラボレーション中に開発者から提出されるコード変更リクエストで、他のチームメンバーによるコードレビューとマージのために提出される)を生成するのに優れており、開発者の反復作業を大幅に削減できると考える人もいる。しかし、複雑なビジネスロジックを扱う場合、Devinは依然として多くの手作業を必要とすると指摘するユーザーもいる。しかし、複雑なビジネスロジックを扱う場合、特にプロジェクトが十分に文書化されていない場合やコード品質が低い場合、Devinは依然として多くの手作業を必要とすると指摘するユーザーもいる。

 

CursorとDevinの "人気 "の差の根本的な理由は、その製品を使用する開発者の失敗率と失敗コストの差にある。

現在、コパイロットシナリオの故障率は比較的低く、対応する測定HumanEvalの精度は100%に収束しつつあるが、エージェントシナリオに対応する測定SWEベンチマークの精度は現在60%以下である。

また、AIの作業結果には人間の納得と確認が必要であり、コパイロット型製品のインタラクションでは、開発者がAIが生成した結果を見るためのコストは非常に低く、失敗後にユーザーが修正したり、採用しなかったりするコストも非常に低いと判断される。しかし、エージェント型製品の場合、ユーザーの確認コストはコパイロット型製品よりも大幅に高く、失敗後の修正コストも高くなる。

 

また、CursorとDevinの2つの方向性は、一般的なシナリオにおけるCopilotとAgentの製品形態の現状をほぼ反映している。

カーソルはコパイロットの略で、AIと人間が同期して働くことを要求し、人間がリードし、AIがアシストする。

 

今のところ、PMFを実際に動かしているのはコパイロットだ。Copilotは、VS CodeなどのIDEにプラグインの形で寄生し、人間の開発者があらゆる種類のコーディング作業を完了するのを支援することができ、GitHub Copilotの出現後、ユーザーは徐々にCopilotでの共同作業の形態に慣れてきており、GPT-3.5の出現は、デモからCopilotが実際に使用可能な製品となっている。

しかし、私はCopilot製品カテゴリーの「隠れた懸念」について書いたことがある。"本当の堀 "はVS Codeであり、VS Codeはシンプルなエディタからプラットフォームへと変貌を遂げた。ユーザーがGitHub CopilotからCursorに簡単に移行できるのは、どちらもVS Codeに寄生しており、ユーザーの習慣、経験、機能/プラグインがすべてまったく同じだからだ。大手モデルが手に入れ、すでにモデルの一部となっていること。"

これに対してAgentはGPT-3.5によって生み出された新種であり、起業家やVCの敏感な神経をより刺激することができる新しいコンセプトである。DevinはAgentの代表的な形態であり、AIは人間と非同期で働き、AIはより主体性を持ち、自律的に意思決定や実行の一部を行うことが求められる。

 

Agentは起業家にとってチャンスだ。しかし、彼はデビンが提唱するオールラウンドなAgentのビジョンには賛成していない。「すべてをやるということは何もしないということであり、ニッチな分野でのエージェント・アプリケーションの価値ははるかに高い。

しかし、Agentのコンセプトは非常に初期のものであり、すべてが模索中であるため、Agentの寄生環境や能力の境界はまだ不明確であり、コード生成、コード補完、ユニットテスト生成、欠陥検出の方向でこの分野に参入する人々がいる。

グルーは、ユニットテストから始めることを選択した。正式に製品を発売する前に、グルー社内で試行錯誤の期間もあり、ドキュメントの自動生成、バグフィックス、E2Eテストなどの方向性も試されましたが、モデル機能に制限され、ソフトウェアの反復やメンテナンスなどのペインポイントを進めることができません。

やがてグルーは、ユニットテストが一般的に存在するニーズであることを知った。多くの開発者は、単体テストを書くのは退屈なので好きではない。また、それほど難易度の高くないプロジェクトでは、単体テストはソフトウェアエンジニアリングに必要な要件ではない。しかし、グルーは、技術的能力の観点から、AI製品の着地は、ビジネスコンテキストとエンジニアリングコンテキストの一貫性の問題を解決する必要があり、ユニットテストは、2つのコンテキストに最も依存しないだけでなく、リンクの現在のモデル能力に最も関連していると考えている。

 

しかしだ。コパイロットとエージェントのどちらが目的ではなく手段であっても、「どちらか一方」ではなく、共存し、異なる問題を解決していく。

多くの個人開発者や一部の中小企業にとっては、「Cursor」や一部のオープンソースモデルのような汎用製品でほとんどのニーズを解決できるかもしれないが、多くの大企業やさまざまな分野の複雑なビジネスシナリオでは、「Copilot」や「Agent」のような形態の汎用製品だけではニーズを満たすことは難しく、テクノロジーベンダーにはより強力なドメイン固有のサービス能力が求められる。しかし、多くの大企業や様々な分野の複雑なビジネスシナリオでは、「Copilot」や「Agent」のような形の汎用的な製品だけでは需要を満たすことは難しく、テクノロジーベンダーにはより強いドメイン別のサービス能力が求められる。

国内のAIプログラミング企業にとってチャンスとなるのは後者だ。

 

3.国内のビジネスチャンスは垂直部門にある

 

2024年を振り返ると、AIプログラミングは間違いなくシリコンバレーで最もホットなVCの方向性のひとつであり、Cursor、Poolside、Cognition、Magic、Codeium、Replitなどのユニコーンがすでに経営している。

これに対し、国内のネットメーカーや大手模型メーカーは基本的に独自の「コードモデル」を立ち上げているが、よく発達した新興企業は非常に少ない。シリコンスター人士によると、昨年、奇瑞創丹はAIプログラミング分野の新興企業6社に投資したが、その後、ほとんど全滅し、昨年、一時的に浮上したコード型チームは10社以上あったが、今年、そのほとんどがすでにこの分野から引退した。

ChatGPTの出現後、クリアストリーム・キャピタルはAIプログラミング・トラックで数十のプロジェクトを見てきたが、最終的に動き出したのはシリコン・ハート・テクノロジー(略して「aiXcoder」)だけだ。

 

国内のAIプログラミング・プロジェクトでは、製品がより「浅く」作られているという意見が多い。"現在、多くの製品が数分のコードを生成するが、デバッグに半日以上費やさなければならないと不満を漏らす開発者がコミュニティにいる。"

 

その "浅い "外観の裏には、米国と中国の2B市場で長年にわたって培われてきた環境の違いがある。.その理由を分析すると、次の3つである:米国のジュニアプログラマーグループは巨大であり、マンパワーのコストは高く、AI製品の導入は、企業が大幅にコストを削減するのに役立ちます、米国のSaaS市場は、PLGモデルを介して実行されている、汎用製品に支払う企業の意欲が強くなっている、および外国の2B市場の出口経路が明確であり、投資家の投資意欲が強く、市場の最初のレベルのビジネスを引き継ぐための論理も非常に明確であり、エンジェル投資家は非常に多く、非常に活発である。新興企業はほとんど常に、アイデアを検証するための最初の資金調達ラウンドを得ることができる。

2024年9月、グルーはGru.aiを立ち上げ、OpenAIが発表したswe-bench検証評価で45.2%の高得点を叩き出し、1位となった。プロダクトを持つことで、シリコンバレーで受け入れられやすくなったという実感が明確にあった。

そして国内のBサイド市場には、決まりきった問題がまだ存在している。"中国でBtoBを行うのは難しく、関係するセールスチェーンは長くなり、結局、ツケを払えるのはまだほとんどが大企業だが、大企業はあなたのものが良ければ買ってくれるわけではないこともある。""多くの企業は、情報漏洩のリスクを懸念しているため、例えば、内部のセキュリティコンプライアンスの要件が多数あり、製品を呼び出すためにクラウドを使用することはできません、ローカルに展開されたコードツールの必要性"

 

その結果、国内のAIプログラミング企業は、さまざまな業界の特定の問題を解決するために、両足を土の中に突っ込まなければならなくなった。

"モデルは、実際の着陸プロセスでのビジネスの継続性を考慮する必要があり、パフォーマンスの評価結果から、国内のコードモデルは改善されているが、特定のアプリケーションのシナリオでは、特定のシナリオを分析する必要があります。"以前、ある工業製造企業と交流した後、工業シナリオの一部のソフトウェアシステムで使用されている言語は、一般的なパイソンやC++ではなく、いくつかの業界固有のコーディングツールであることが判明し、技術ベンダーは、自社製品にターゲットを絞った調整を行う必要があります。

これは産業シーン特有の需要ではない。各産業にはそれぞれ固有のドメイン特性があり、各企業には固有のビジネスロジックとエンジニアリングシステムがあるため、AIプログラミング企業にはより強力なドメイン固有のサービス能力が求められる。

 

数十社の企業を調査した結果、「あらゆるタイプのソフトウェア開発ニーズに対して、AIプログラミング機能は、コード生成に加えて、検索、欠陥検出と修復、テストといった一連の作業を少なくとも含む」ことがわかった;機能性だけでなく、これらの機能を顧客自身のビジネス・ロジックとどのように統合するかを検討する必要がある。

 

その結果、クリアストリーム・キャピタルは、モデルや商品を組織内のプライベートな知識、データ、ソフトウェア開発フレームワークと深く結合させるという考え方に強気になっており、2023年9月にaiXcoderに投資した。

"この実績あるニーズにおいて、aiXcoderは最も技術的・商業的に適合したチームです。同時に、同社の商業チームの主要メンバーの多くは、国内外のビッグB顧客への10年以上の営業経験を持ち、顧客や市場に対する深い洞察力を持っている。彼らは2023年第2四半期に "ドメイン化 "ランディング・ソリューションを提案した。すなわち、AIプログラミングは企業内のプライベートな知識、データ、ソフトウェア開発フレームワークと深く結合させるべきだという戦略であり、これはプロジェクトの実際のランディング結果という点でも、多くの主要企業顧客に認められている。"

北京大学ソフトウェア工学研究所からインキュベートされたaiXcoderは、ディープラーニング技術をコード生成とコード理解に応用した世界で最も早いチームであり、ディープラーニングをプログラミング製品に応用した最も早いチームでもある。同チームは、トップクラスの国際ジャーナルやカンファレンスで100以上の論文を蓄積しており、その多くはインテリジェント・ソフトウェア工学の分野で最初の、そして最も引用された論文となっている。

aiXcoderのビジネスパートナーと社長は、Bエンドのプライベート展開シナリオに直面したとき、一般的な大規模モデルはプライベートドメインのデータを学習していないため、モデルは企業の内部ビジネス要件、業界仕様、ソフトウェア開発フレームワーク、および動作環境の詳細な統合を欠いており、要件分析や設計文書などの企業ドメインの背景知識をモデルトレーニングに組み込むことができず、その結果、生成または補足されたコードは、ビジネスロジックレベルで関連性がなく、信頼性に欠けると述べています。その結果、ビジネスロジックレベルで生成または補足されたコードは、関連性と信頼性を欠くことになります。

 

その結果、企業アプリケーションにおけるビッグモデルの精度と使いやすさは、予想以上に低いものとなった。「多くのビッグモデルは、一般的なシナリオや主流の評価セットでは、最大301 TP3Tの精度で立派に機能するが、企業内に導入されると、精度は通常101 TP3T以下に急落する。従来の微調整の手段では、企業の望む結果を達成することも難しい。したがって、「ドメイン」知識の学習と習得が、企業におけるAIプログラミング・システムの導入を成功させる鍵となる。したがって、"ドメイン "知識の学習と習得が、企業におけるAIプログラミング・システムの導入を成功させる鍵となる。企業のお客様のドメイン固有の問題を解決することが、当社の差別化価値です。"

上記のペインポイントに対処するため、aiXcoderは、コード、ビジネス文書、要件文書、設計文書、テスト文書に加え、業界のビジネス用語やプロセス仕様、業界の技術標準や仕様、企業の技術スタックやプログラミングフレームワーク、その他のドメイン知識など、企業から提供されたさまざまな内部データに基づいて、的を絞った段階的なトレーニングを実施します。.モデルトレーニングに加え、マルチエージェント、RAG、ソフトウェア開発ツール、企業ソフトウェア開発フレームワークに適合する「エンジニアプロンプトシステム」を組み合わせることで、コード生成の品質と研究開発の全プロセスの能力を向上させます。

配達という形で。ドメインベースのソリューションは、従来の高度にカスタマイズされたプロジェクトベースのデリバリーとは異なる同時に、aiXcoderは定期的なミーティングを通じて顧客と高い頻度でコミュニケーションを取り、顧客が周期的に抱える問題の解決を支援するだけでなく、顧客の共通かつ真のニーズに基づいて製品を反復し続ける必要がある。

 

4.AI業界は何度も「狼を泣かせた」。

結果重視の観点からすると、小Bか大Bか、「トレーニング・モデル」か「トレーニング・モデルでないか」、コパイロットかエージェントか、最適な答えはないかもしれない。最適な答えはないかもしれない。

どのような道を歩むにせよ、AIプログラミング企業はソフトウェア開発の効率化という単純明快な目標を掲げている。しかし、現在の市場ではまだ黎明期であり顧客の需要を正しく取り込むことは、市場に参入するすべての企業にとっての課題である。.

 

現在最も苦労しているのは、セグメント化されたエージェントの価値をいかにして顧客に認識してもらうかということだ。「シリコンバレーでさえ、新しいAI製品について聞いたときの多くの潜在顧客の最初の反応は、興奮ではなく、疑問の一つである。.現時点では、グルーは顧客との接触に多くのエネルギーを費やしており、シード・ユーザーからのクチコミを積み上げている。

国内市場では、AIプログラミングシステムの需要側も、自らのニーズとモデルの能力の境界を明確にする必要がある。"現在、ビッグモデル駆動型AIプログラミングシステムは、ソフトウェアの生産性を向上させる上で有望な将来性を秘めている。""企業環境でこの技術の価値を真に活用するためには、コードビッグモデルを企業独自のドメイン知識と深く結合させ、具体的なビジネスシナリオで継続的に反復・検証することが必要である。"

事実だ。ビッグモデルは進化し、市場心理はほぼ合理性を取り戻したが、ノイズはまだ残っている。たとえば2024年は、大型モデルの入札情報が一般的な年だが、データの中には「誤解を招く」ものもありそうだ。例えば、2024年は大きなモデルの入札情報が一般的だが、データの一部は「誤解を招く」可能性がある。

"海外では生態分業が明確だが、中国ではTO Bを行うプロジェクトの多くが入札に終わり、多くの企業が入札にしのぎを削っている。"しかし、AIプログラミングの分野では、公開されている入札情報から判断すると、大手メーカー数社でも受注は多くない。

その理由は入札の成功は、現地でのモデルや製品の成功とイコールではない.

 

一方では、調達のための責任を負う多くの購入者で、製品の実際の使用は、しばしば調達の意思決定と皮膚の2つの層の実際のビジネスニーズになる可能性があり、同じ波ではありません。一方、これらの着陸は、多くの場合、標準化された製品に加え、微調整ではなく、企業のビジネスシナリオと綿密なドメインのトレーニングと適応のための内部ロジックのために、プロセスの使用のプログラマにつながる可能性があります結果は満足のいくものではないことがわかったに依存しています。

ある業界関係者が明らかにしたところによると、現在の入札市場では、ハードウェアを含む発注のほとんどが数百万台であるのに対し、インテリジェントソフトウェア開発、コードアシスタントなどの純粋なソフトウェアの発注は、ほとんどが30万台程度の規模だという。多くの企業は、購入後に問題を解決できないことに気づき、より適切なメーカーを探すために市場に戻るしかなく、結果的に資源を浪費することになる。

しかし、解体からいくつかのコンセンサスが生まれつつある。より多くの企業が、製品とモデルの能力を「切り離す」傾向にあることに気づいている。

 

モデルの能力が強化される2024年前半には、各モデルはプログラミングの面で収束し、製品はもはやモデルの能力に合わせて調整されるのではなく、次のようなものになるはずだ。モデルを問わない」製品にする。.「2024年前半から、我々は基本的にモデルごとに最適化を行うのではなく、製品アーキテクチャの能力を強化する。

「企業顧客はビジネスの継続性に十分な注意を払うべきであり、単一のビッグモデルベンダーに縛られるべきではない。現在、標準化された製品を購入するだけでは、企業顧客のビッグモデル上陸のニーズを真に満たすことは難しい。企業は、ビッグモデル、データレベル、ドメイン化、エンジニアリングの面でアーキテクチャーのデカップリングを実現し、よりニーズに合ったモデルやサービスプロバイダーを柔軟に選択する必要がある。最も重要なことは、企業がコスト削減と効率化を達成できるように、企業内のソフトウェア開発のドメイン化という実際の問題を効果的に解決することである。"

業界の第三者的な視点として、将来的には、モデルへのアクセスは業界の着地点の一部に過ぎない。「テクノロジー・ベンダーが最初の95~99キロメートルの機能をインフラに標準化すれば、残りの最後の1~5キロメートルはアプリケーション側で行うことができる」。

無断転載を禁じます:チーフAIシェアリングサークル " カーソルは爆発的な人気だが、国産AIプログラミングの出口はカーソルではない

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語