AIパーソナル・ラーニング
と実践的なガイダンス
TRAE

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

はじめに

オープン オペレーター Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトである。Browserbaseによって開発されたこのプロジェクトは、StagehandとBrowserbaseの技術を組み合わせ、ユーザーが自然言語コマンドを通じてブラウザの動作を制御できるようにします。Open Operatorは直接的なサービスを提供するのではなく、ウェブブラウジング機能をAIツールにどのように統合できるかを示すリファレンス実装として機能します。独自のブラウザ自動化ツールを構築してテストしたい開発者や、ウェブページとAIとの対話の複雑さを理解したい開発者に適しています。

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する-1


 

機能一覧

  • AIドライバーブラウザの操作自然言語コマンドを使って、AIにブラウザの手動操作をシミュレートさせる。
  • 自然言語からブラウザへの変換ステージハンドツールを使って、ユーザーの自然言語を特定のブラウザーアクションに変換します。
  • オープンソースとスケーラビリティ完全なソースコードを提供し、コミュニティへの参加を奨励し、必要に応じてユーザーが機能を拡張できるようサポートする。
  • ブラウザベースとの統合Browserbaseのクラウドブラウザインフラを活用することで、効率的で安定した運用が可能になります。
  • 教育リソース豊富なドキュメントとサンプルコードで、初心者からプロの開発者まで、学習と応用をサポートします。

 

ヘルプの使用

設置プロセス

Open Operatorはオープンソースプロジェクトであるため、伝統的な意味でのインストール手順はありませんが、以下の手順に従って開始または開発することができます:

1.クローン倉庫::

  • ターミナルまたはコマンドプロンプトを開く。
  • 利用するgit cloneコマンドでプロジェクトをローカルにクローンする:
    git clone https://github.com/browserbase/open-operator.git
    
  • プロジェクト・カタログにアクセスする:
    cd open-operator
    

2.依存関係のインストール::

  • このプロジェクトではpnpmパッケージ・マネージャーを使用するため、Node.jsとnpmがインストールされていることを確認してください。
  • pnpmをインストールする(まだインストールされていない場合):
    npm install -g pnpm
    
  • プロジェクトの依存関係をインストールします:
    pnpm install
    

3.ランニング・プロジェクト::

  • ローカルサーバーを起動する:
    pnpm dev
    
  • ブラウザを開き、次のサイトにアクセスする。http://localhost:3000をクリックして、Open Operatorの動作をご覧ください。

使用ガイドライン

プロジェクトの構造を理解する::

  • src/すべてのソースコードを含むカタログ。src/agent/特に興味深いのはカタログで、AIインテリジェンスのロジックが定義されている。
  • examples/プロジェクトの使い方をすぐに理解できるように、サンプルコードが含まれています。

最初のAIミッションを書く::

  • コンパイラexamples/example.tsここでは、ウェブ操作にAIを使用する方法を示す簡単な例を示します。コードサンプルは以下の通りです:
import { Agent } from '@browserbase/open-operator';
  import { OpenAI } from 'langchain/llms/openai';

  async function run() {
    const agent = new Agent({
      llm: new OpenAI({ temperature: 0 }),
    });

    const task = await agent.run({
      task: "Search for 'Browserbase' on Google and click on the first result.",
    });

    console.log(task.result);
  }

  run();
  • このコードは、エージェントをインスタンス化し、単純な検索とクリックタスクを実行する方法を示しています。

テストとデバッグ:

  • ブラウザの開発者ツールを使用して、AI 操作の効果をリアルタイムで観察できます。ネットワーク リクエスト、コンソール ログなどを Chrome DevTools で表示し、AI 操作のすべてのステップを監視できます。
  • example.tsを修正したり、新しいスクリプトファイルを追加したりして、さまざまなAIタスクをテストする。

拡張とカスタマイズ:

  • 必要に応じて、エージェントクラスを変更したり、新しい処理ロジックを追加したりすることで、Open Operatorの機能を拡張できます。
  • ブラウザ操作のより正確な制御については、Stagehand のドキュメントを参照してください。

上記のステップとガイドにより、Open Operatorの探求を開始し、その設計哲学を理解し、より複雑なAI搭載ブラウザ自動化アプリケーションを開発することができます。

無断転載を禁じます:チーフAIシェアリングサークル " オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する
ja日本語