はじめに
Nanobrowserは、AIを搭載したマルチエージェントシステムによってウェブタスクを自動化するために設計されたオープンソースのChrome拡張機能です。LLM(大規模言語モデル)のAPIキーを提供するだけで使用できる、OpenAI Operatorの無料代替機能で、OpenAIとAnthropicモデルをサポートしており、将来的にはさらに多くのオプションが拡張される予定です。Nanobrowserは、3つのエージェント(Planner、Navigator、Validator)の連携により、単純な検索から複雑な処理まで、様々なタスクを処理します。プロジェクトのコードはGitHubでホスティングされており、ユーザーがディスカッションに参加したり、DiscordやXを通じて貢献できる活発なコミュニティがあります。
機能一覧
- マルチエージェントシステムプランナーが戦略を練り、ナビゲーターがオペレーションを行い、バリデーターが結果を検証する。
- 柔軟なLLMサポートOpenAIとAnthropicのサポートにより、ユーザーはエージェントごとに異なるモデルを選択することができます。
- ローカルオペレーション:: ユーザーのプライバシーを保護するため、データ処理はローカルで行われます。
- タスクの自動化:ウェブ検索、フォーム入力、データ抽出などを実行します。
- インタラクティブ・サイドバー:: リアルタイムのステータスアップデートを備えたチャットインターフェイスを提供する。
- 歴史との対話:: 作業の記録を残し、その後の閲覧や管理をサポートする。
- オープンソースで透明性が高いコードはレビューと改良のために公開されている。
- フォローアップの質問:: タスクの結果に基づいた文脈に沿った質問のサポート。
ヘルプの使用
設置プロセス
NanobrowserはChrome拡張機能として利用可能で、ビルド済みバージョンを直接ダウンロードするか、ソースからビルドするかの2つのインストールオプションがある。
方法1:ビルド済みバージョンを直接インストールする
- 拡張機能のダウンロード
- インタビュー
https://github.com/nanobrowser/nanobrowser/releases
. - 最新バージョン(例:v1.0.0)はリリースページでご確認ください。
- 「nanobrowser.zip」というファイルをダウンロードしてください。
- インタビュー
- ファイルを解凍する
- nanobrowser.zip」をローカルフォルダ(例:「nanobrowser」フォルダ)に解凍します。
- クロームに読み込む
- クロームを開き、次のように入力する。
chrome://extensions/
. - 右上の「開発者モード」を有効にする。
- 左上の「Load unpacked」をクリック。
- 解凍した「nanobrowser」フォルダを選択し、「フォルダを選択」をクリックします。
- インストールに成功すると、ChromeのツールバーにNanobrowserのアイコンが表示されます。
- クロームを開き、次のように入力する。
- APIキーの設定
- ツールバーのNanobrowserアイコンをクリックしてサイドバーを開きます。
- 右上の設定アイコンをクリックします。
- LLMのAPIキーを入力する(OpenAIまたはAnthropicのウェブサイトで入手可能)。
- プランナー、ナビゲーター、バリデーターのモデルを選択する(OpenAIのGPT-4oやAnthropicのClaudeなど)。
- 設定を保存して設定を完了します。
方法2:ソースからビルドする
- 環境を整える
- クローン倉庫
- ターミナルを開き、以下のコマンドを入力する:
git clone https://github.com/nanobrowser/nanobrowser.git cd nanobrowser
- ターミナルを開き、以下のコマンドを入力する:
- 依存関係のインストール
- インプット:
pnpmインストール
- インプット:
- 増築
- インプット:
pnpmビルド
- ビルドが完了すると、"dist "フォルダーに拡張ファイルが格納される。
- インプット:
- クロームに読み込む
- 方法1」のステップ3に従い、「dist」フォルダを読み込む。
- 開発モード(オプション)
- リアルタイムのデバッグが必要な場合は、それを実行する:
pnpm dev
- リアルタイムのデバッグが必要な場合は、それを実行する:
主な機能の使い方
1.自動化を義務付ける
- ワークフロー:
- ツールバーのNanobrowserアイコンをクリックしてサイドバーを開きます。
- 入力ボックスにタスク・コマンドを入力する。例えば、「TechCrunchにアクセスし、過去24時間のトップ10ヘッドラインを抽出する」。
- Execute "をクリックするとマルチエージェントシステムが起動する:
- プランナー例えば、テッククランチを開いて見出しのエリアを探す。
- ナビゲーターウェブ・ナビゲーションとデータ抽出を行う。
- バリデータ:: 検査結果が要求事項に適合していること。
- 結果はサイドバーに表示され、コピーやフォローアップの質問をサポート。
- 使用シナリオ:
- ニュース概要特定のウェブサイトから最新情報を抽出します。
- ショッピングリサーチ:: Amazonで「防水ブルートゥーススピーカー、50ドル以下、バッテリー寿命10時間以上」で検索。
- コード・リサーチGitHubで最も人気のあるPythonリポジトリを検索できます。
2.コンフィギュレーション・エージェント・モデル
- ワークフロー:
- 注意を引く:
- 異なるモデルは異なるタスクに適しており、効率を向上させるために組み合わせを試すことをお勧めする。
- タスクの中断を避けるため、APIキーが有効であることを確認する。
3.対話履歴の閲覧・管理
- ワークフロー:
- サイドバーの「会話履歴」を選択します。
- 時間、指示、結果とともにタスクのリストを表示します。
- レコードをクリックして詳細を表示するか、「再試行」を選択して再度実行する。
- 実技:
- 履歴をJSONファイルとしてエクスポートし、簡単にバックアップできます。
- 失敗したタスクのログを調べ、指示やモデルを最適化する。
4.フォローアップの質問
- ワークフロー:
- タスクが完了したら、サイドバーにフォローアップの質問を入力する。例えば、"AI関連の見出しはどれですか?" といった具合だ。.
- システムは、完全なタスクを再実行することなく、過去の結果に基づいて回答する。
- ゆうせい:
- 相互作用の効率が向上し、詳細な分析に適している。
注目の機能操作
マルチエージェントシステム
- どのように経験するか:
- HuggingFaceで最も人気のある5人のAIモデルを見つけ、リストに整理する」といった複雑なコマンドを入力する。
- プランナーがタスクを分解し、ナビゲーターがデータを抽出し、バリデーターが正確性を検証する。
- 結果は構造化された形で返される。
- ゆうせい:
- 動的エラー修正:プランナーは障害に遭遇すると戦略を調整する。
- 効率的なコラボレーション:3つのエージェントを並行して処理することで時間を節約。
ローカルオペレーションとプライバシー保護
- 確認方法:
- Chromeのデベロッパーツール(F12)を開き、ネットワークタブに切り替えます。
- タスク実行時には、LLM APIコールだけが表示され、他の外部リクエストは表示されない。
- マイレージ:
- ユーザー認証情報や機密データはクラウドにアップロードされないため、安全でセキュアだ。
インタラクティブ・サイドバー
- 使用方法:
- サイドバーを開くと、タスクの進行状況がリアルタイムで表示される(「ナビゲート中」「検証中」など)。
- コマンドの調整やタスクの途中停止をサポート。
- 特性:
- インターフェースは直感的で、初心者にもプロフェッショナル・ユーザーにも適している。