AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

LangGraph CUA:コンピュータ操作を制御するLangGraphベースのAIインテリジェンス

はじめに

ラングラフ CUAはLangChainチームによって開発されたオープンソースプロジェクトである。LangGraphフレームワークをベースにしており、開発者はPythonを使ってコンピュータを直接操作できるAIインテリジェンスを構築することができる。このツールの中核をなすのがコンピュータ利用エージェント(CUA)で、クリックやテキスト入力、ウェブ閲覧など、コンピュータ上での人間の行動をシミュレートする。記憶機能、人間とコンピュータの共同作業、リアルタイム出力をサポートしており、繰り返し作業の自動化や知的アシスタントの開発に適している。このプロジェクトのコードは、開発者が自由にダウンロード、変更、使用できるように公開されており、AIの自動化に関心のある技術愛好家に特に適している。

 

機能一覧

  • ソフトウェアを開く、テキストを入力する、ボタンをクリックするなど、テキストと音声によるコンピュータ操作のAIコントロールをサポート。
  • 前回の操作やダイアログの内容を記憶する短期記憶と長期記憶の機能を搭載。
  • 人間とコンピュータのコラボレーション・モードを内蔵しているため、ユーザーはいつでもAIに介入して行動を調整することができる。
  • リアルタイムのストリーミング出力をサポートし、操作プロセスをステップごとに表示することができます。
  • 仮想マシン上でAIエージェントを実行し、ウェブページにアクセスするためのScrapybaraとの統合。
  • 開発者は、柔軟で拡張性のある機能を実現するために、ツールや構成をカスタマイズすることができます。

 

ヘルプの使用

LangGraph CUAのインストールと使用は複雑ではありませんが、基本的なPython環境とAPIの設定が必要です。以下はその詳細です。

設置プロセス

  1. 環境を整える
    あなたのコンピューターにPython 3.8以上があることを確認してください。これはコマンドで確認できます:
python --version

そうでない場合は、https://www.python.org からダウンロードしてインストールしてください。

  1. クローンプロジェクト
    ターミナルで以下のコマンドを入力し、コードをローカルにダウンロードする:
git clone https://github.com/langchain-ai/langgraph-cua-py.git

ダウンロードが完了したら、プロジェクトフォルダーに移動する:

cd langgraph-cua-py
  1. 依存関係のインストール
    このプロジェクトにはいくつかのPythonライブラリーが必要で、このコマンドでインストールする:
pip install -r requirements.txt

パーミッションに関する問題が発生した場合は --user::

pip install -r requirements.txt --user
  1. APIキーの設定
    LangGraph CUAにはOpenAIとScrapybaraのAPIキーが必要です。まずアカウントを登録してキーを取得し、ターミナルで環境変数を設定する:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>

相互互換性 <你的OpenAI密钥> 歌で応える <你的Scrapybara密钥> Windowsユーザーは set 代わりに export.

  1. インストールの確認
    簡単なテストを実行し、環境に問題がないことを確認する。プロジェクト・ディレクトリに移動して実行する:
python -m langgraph_cua

エラーが報告されなければ、インストールは成功です。

主な機能の使い方

LangGraph CUAの核心は、コンピュータを操作するAIエージェントの作成です。その仕組みはこうだ。

AIエージェントの作成

例えば、Pythonファイルでエージェントをインポートし、設定する:

from langgraph_cua import create_cua
cua_graph = create_cua()

これでデフォルトのAIエージェントが生成される。特定のVMインスタンスを使用したい場合は、パラメータを追加できます:

cua_graph = create_cua(auth_state_id="你的认证ID")

コンピュータを操作する

エージェントはコマンドでコンピュータをコントロールできる。例えば、ブラウザを開くように指示します:

cua_graph.invoke({"command": "open browser"})

またはテキストを入力する:

cua_graph.invoke({"command": "type", "text": "你好,世界"})

これらのコマンドはコンピューター上で直接実行される。

メモリー機能の使用

エージェントは以前の操作を記憶しています。例えば、最初にメモ帳を開かせます:

cua_graph.invoke({"command": "open notepad"})

それから内容を入力する:

cua_graph.invoke({"command": "type", "text": "这是测试"})

次に呼び出されたとき、メモ帳が開かれていることを認識し、そのまま操作を続行する。

ヒューマン・マシン・コラボレーション

手動で調整したい場合は、HMIモードを有効にします。実行時にパラメータを追加する:

cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)

この時点でプログラムは一時停止し、座標を確認または修正するのを待ちます。

リアルタイム出力

操作の全ステップを見たい場合は、ストリーミング出力を使用することができる:

for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)

検索プロセスが段階的に表示されます。

注目の機能操作

Scrapybaraの統合

Scrapybaraは、ウェブタスクを処理するのに適した仮想マシン上でエージェントを実行することを可能にする。APIキーが正しいことを確認するために設定し、実行する:

cua_graph.invoke({"command": "browse", "url": "https://example.com"})

エージェントはウェブページを開き、仮想マシン上で操作する。

カスタマイズ・ツール

独自のツールを追加することもできる。例えば、電卓ツールを定義します:

def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])

それなら電話をしてくれ:

cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})

結果は8を返す。


これらのステップとコードで、簡単な作業から複雑なカスタマイズまで、LangGraph CUAをすぐに使いこなすことができます。

 

アプリケーションシナリオ

  1. 自動化されたオフィスワーク
    AIエージェントを使用して、エクセルを開き、データを入力し、保存するなどのファイルをバッチ処理することで、繰り返し操作をなくすことができます。
  2. ウェブ・データ・キャプチャ
    エージェントにウェブサイトを訪問させ、ニュースの見出しや価格データを自動的に収集するなど、情報を抽出させる。
  3. インテリジェント・アシスタント開発
    電子メールを開く」「文書を検索する」といった音声コマンドを聞き、それを直接実行するアシスタントを作る。
  4. 教育とトレーニング
    生徒が自動化の原理を理解できるように、指導中に人間がコンピュータを操作している様子をAIがどのようにシミュレートできるかを実演する。

 

品質保証

  1. プログラミングの基礎は必要ですか?
    コマンドラインが使える、簡単なコードが書けるなど、Pythonの基本的な知識が必要です。方法がわからない場合は、まず基本的な構文を学ぶことができます。
  2. APIキーがない場合は?
    OpenAI(https://openai.com)とScrapybaraの公式サイトにアクセスして、アカウント登録とキーのリクエストを行ってください。無料のクレジットは限られている場合があるので、価格を確認することをお勧めする。
  3. 仮想マシンは使えないのですか?
    しかし、Scrapybaraを使った仮想マシンの方がより安全で、動作環境を隔離し、ローカル・コンピューターへの影響を避けることができる。
  4. 中国語のコマンドに対応していますか?
    サポートAIモデルが中国語を理解する限り、中国語のコマンドを入力するのも効果的だ。
無断転載を禁じます:チーフAIシェアリングサークル " LangGraph CUA:コンピュータ操作を制御するLangGraphベースのAIインテリジェンス
ja日本語