AIパーソナル・ラーニング
と実践的なガイダンス

カーソルとウィンドサーフを1時間で月500ドル相当のデビンに変える!

前回の記事では、完全自動プログラミングを可能にするAgentic AIであるDevinについて説明した。 カーソル とWindsurf)は、工程計画、自己進化、工具拡張、完全自動化操作の面で大きな利点を提供します。これにより デヴィン 既存のAgentic AIツールと差別化する新世代のツールとなる。

しかし、しばらくデビンを使っているうちに、私の "ビルダー精神 "が再び発動し、次のような行動に走った。 ウィンドサーフ とCursorにDevin 90%を実装しました。この記事では、これらの改造の具体的な内容に焦点を当て、この例を使ってエージェント型AIの時代にいかに効率的に構築・拡張できるかを紹介する。議論を簡単にするために、このツールの代理としてCursorを使用し、Windsurfを使用したい場合にどのような小さな微調整が必要かを議論して締めくくります。

アーティファクト 工程計画 自己進化 ツール・エクステンション 自動化された実装 物価
デヴィン あり(自動、完全) あり(自習) マルチ アジュバント $500/月
カーソル(修正前) 制約 詰り 限られたツールセット 手動による確認が必要 $20/月
カーソル (変更) デビンに近い。 であります デビンに近く、拡張性がある 確認または解決策がまだ必要 $20/月
ウィンドサーフ(修正) デビンに近い。 そうだが、間接的に デビンに近く、拡張性がある Dockerコンテナでの完全自動化のサポート $15/月

 

工程計画と自己進化

前述したように、デヴィンの興味深い点は、組織化されたインターンのようなものだということだ。タスクを実行する前に計画を作成し、実行中に計画の進捗状況を継続的に更新する。これにより、AI管理者は現在の進捗状況を把握しやすくなると同時に、AIが当初の計画から逸脱することを防ぎ、より深い思考とタスク完了の質を高めることにつながる。


この機能は印象的に見えるかもしれないが、実はCursorに実装するのはとても簡単だ。

カーソルの場合、フォルダのルート・フォルダにある .cursorrules これは特別なファイルだ。このファイルの何が特別かというと、GPTやClaudeのようなバックエンドの大きな言語モデルに渡されるCursorのキューワードを変更することができるということです。言い換えれば、このファイルにあるすべてのものが、バックエンドのAIに送られるキュー・ワードの一部となり、カスタマイズのための大きな柔軟性を提供します。

例えば、カーソルと対話するたびに、カーソルがプランの最新版を受け取るように、プランの内容をこのファイルに入れることができる。また、カーソルにタスクの開始時にプランを考え、作成するよう求めたり、各ステップの後にプランを更新するよう求めたりするなど、より詳細な指示をこのファイルに記述することもできます。カーソルはエージェントを使用してファイルを修正することができ、また .cursorrules それ自体がファイルで、閉じたループを作る。毎回自動的にファイルの中身を読み、最新のアップデートを理解し、考えた末に更新された経過と次のステップをこのファイルに書き込み、常に最新のアップデートがあるようにしてくれるのだ。

同様に、自己進化機能も同じ方法で実現できる。例えば .cursorrules ファイルでは、カーソルに反映を促すプロンプトを追加し、ユーザーがエラーを修正する際に、文書化可能な再利用可能な経験があるかどうかを検討する。もしあれば .cursorrules それによって、プロジェクト固有の知識が蓄積される。

典型的な例として、現在の大規模言語のモデルは、以前の知識のデッドラインのために、多くのモデルについてGPT-4oの存在に気づいていない。このモデルは存在するが、あなたが知らないだけだ。 .cursorrules 将来、同じミスを繰り返さないようにするためである。しかし、これはやはりキューが効果的であるかどうかにかかっている。キューがポイントを見逃し、私たちが気づくべきだと思う知識を記録できないこともある。この場合、自然言語を使って直接記録を促すこともできる。このような直接的なアプローチも、AIの経験と成長を可能にする。

その結果 .cursorrules Devinのプロセス・プランニングと自己進化機能を、既存のAgentic AIプログラミング・ツールに追加することができます。

ウィンドサーフを使用する場合、1つだけ異なる点がある。 ウィンドサーフルール ファイルです。したがって、2つの部分に分割する必要があります。 スクラッチパッド.md).で ウィンドサーフルール ドキュメントには、各思考プロセスの前にスクラッチパッドをチェックし、そこでプランを更新するように書かれている。この間接的な方法は、直接スクラッチパッドに配置するほど効果的ではないかもしれない。 .cursorrules AIがエージェントに電話をかけ、フィードバックに基づいて考える必要があるという点ではまだ有効だが、実際に機能している。

 

ツール・エクステンション

DevinがCursorより優れている点は、より多くのツールを使えることだ。例えばブラウザを呼び出して検索したり、ウェブをブラウズしたり、LLMインテリジェンスを使ってコンテンツを分析することもできます!.Cursorはデフォルトではこれらの機能をサポートしていないが、幸いなことに、これらの機能は .cursorrules カーソルのプロンプト・ワードを直接制御し、コマンド実行機能を持たせることで、もうひとつの閉じたループが生まれる。あらかじめ書かれたプログラム(Pythonのライブラリやコマンドラインツールなど)を用意し、それを .cursorrules カーソルがこれらのツールの使い方を学び、物事を成し遂げられるようにするためだ。

実際、ツール自体はCursorを使って数分で書くことができる。例えば、ウェブ・ブラウジング機能については デヴィン・カーソルール リファレンス実装はJavaScriptを多用するWebサイトでは、Pythonのリクエストライブラリではなく、ブラウザ自動化ツール(playwrightなど)を使うなど、注意すべき技術的な決定がいくつかある。加えて、LLMとのコミュニケーションをより良くし、後続のコンテンツを理解しクロールできるようにするため、単に美しいスープを使ってウェブページのテキストコンテンツを抽出するのではなく、一定のルールに従ってMarkdown形式に変換しています。これは、より詳細な基本情報(クラス名やハイパーリンクなど)を保持し、より基本的なレベルで後続のクローラを記述するLLMの能力をサポートします。

同様に、検索ツールに関しても、細かいことがある。BingとGoogleの両方は、API検索がクライアントサイドの検索よりもはるかに質が低い。しかし、DuckDuckGoにはこのような問題はないので、我々のリファレンス実装ではDuckDuckGoの無料APIを使用している。

Cursorが深い分析のために独自のインテリジェンスを使用することに関して、これは比較的複雑である。上記の両ツールでは、ウェブページの内容を標準出力にプリントすると、それがCursorのLLMへのキューの一部となり、そのテキスト内容をインテリジェントに分析することができる。しかしその反面、DevinはCursorにはできない方法で、LLMを使って比較的大量のテキストをバッチ処理するユニークな能力を持っている。これを実現するために、私たちは追加のツールを実装しました。システム上でAPIキーを事前に設定し、ツールからGPT、Claude、またはネイティブのLLM APIを呼び出して、CursorにLLMを使ったテキスト・バッチ処理の機能を持たせるのはとても簡単です。私のリファレンス実装では、私自身のローカルvllmクラスタを使用しましたが、修正は非常に簡単で、base_url行を削除するだけです。

これらの修正にもかかわらず、カーソルの制限のために実装できないツールがまだ2つある:

  1. Devinは画像を理解する能力を持っているようで、フロントエンドのインタラクションやテストを行うことができる。しかし、カーソルの制限により、画像をバックエンドのAIに入力として渡すことはできない。
  2. 私たちのウェブ検索ツールは、しばしばCAPTCHAに遭遇したり、ブロックされたりするのに対し、Devinはデータ収集中にアンチクローリング・アルゴリズムによってボットとしてフラグを立てられることはない。これは修正可能かもしれないし、まだ模索中だが、Devinのユニークな強みのひとつであることは間違いない。

完全自動化された実装

最後の興味深い機能は、完全自動実行だ。Devinは完全に仮想化されたクラウド環境で実行されるため、LLM攻撃や危険なコマンドの誤実行を心配することなく、安心してさまざまなコマンドを実行させることができる。システム全体が削除されても、新しいコンテナを起動するだけで復旧できる。しかし、Cursorはローカル・ホスト・システム上で実行されるため、セキュリティが重大な懸念事項となる。そのため、Cursorのエージェント・モードでは、各コマンドを実行する前に手動で確認する必要がある。これは比較的単純なタスクであれば許容できるが、現在では洗練されたプロセス・プランニングと自身を進化させる能力により、Cursorは長期にわたる複雑なタスクも処理できるようになっているため、このようなインタラクションはCursorの能力とは相容れないように思える。

この問題を解決するために、Cursorをベースにした解決策はまだ見つかっていない(2024年12月17日更新 CursorもYoloモードと呼ばれるこの機能を追加しているが、まだDockerでの開発をサポートしていない)が、Windsurfはこの点を考慮している。そのデザインからわかるように、Devinスタイルの製品形態を目指しており、現在のコードエディタは中間形態に過ぎない。より具体的には、WindsurfはDockerコンテナに直接接続してそこで実行したり、設定ファイルがあれば、新しいDockerコンテナの起動、初期化、ローカル・フォルダのマッピングをサポートしてくれる機能を持っている。したがって、実行するコマンドはすべて(ローカル・フォルダの変更を除いて)Dockerコンテナ内で行われ、ホスト・システムに影響を与えないため、セキュリティが大幅に向上する。[サンプル構成]

その上、ブラックリスト/ホワイトリストのメカニズムを導入し、ブラックリストにあるコマンドを自動的に拒否し、ホワイトリストにあるコマンドを許可する。ブラックリストにもホワイトリストにも載っていないコマンドについては、LLMはホスト・システムにリスクがあるかどうかをインテリジェントに判断する。 ピップインストール これらのような通常のコマンドは単純に許可される。なお、この機能はDockerコンテナで実行する場合のみ有効のようだ。ホスト・システム上でコマンドを実行する場合は、やはりCursorと似たようなエクスペリエンスになり、頻繁な確認が必要になる。さらに、自動コマンド実行は設定で有効にする必要がある。

 

概要

このように、Devinの製品形態や設計思想は確かに非常に先進的ではあるが、技術的な敷居の高さという観点からは、既存のAgentic AIツールとの差は思ったほど大きくないことがわかる。CursorやWindsurfのようなポピュラーなツールを使えば(月々わずか$15-20)、1時間もかからずにDevin 90%の機能を実装し、修正前にはできなかった複雑なタスクを実行するために使うことができる。例えば、過去5年間の人気ハイテク株のリターンを分析するというタスクをカーソルに割り当て、詳細なデータ分析を行ったところ、非常に詳細で包括的なレポートを提供してくれました。さらに、私のブログで最も人気のある100の記事の公開時間をクロールし、そのデータをGitHubの貢献グラフのように視覚化するタスクをWindsurfに任せました。このようなタスクは従来のCursorやWindsurfでは不可能で、Devinにしかできませんが、簡単な修正で$20/月のツールの結果を$500/月のツールで実現することができます。フロントエンド開発に全く慣れていない開発者として、フロントエンドとバックエンドの両方でジョブボードを作成するのに1時間半を費やしました。この効率は、Devinに匹敵するものである。

無断転載を禁じます:チーフAIシェアリングサークル " カーソルとウィンドサーフを1時間で月500ドル相当のデビンに変える!

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語