OWL：現実的なタスクにおけるマルチインテリジェンス・コラボレーションのための自動化ツール

58.7K 00

はじめに

OWL（Optimized Workforce Learning）は、CAMEL-AIチームによって開発されたオープンソースのフレームワークで、実世界のタスクの自動化のためのマルチ知的身体コラボレーションの最適化に焦点を当てています。CAMEL-AIアーキテクチャに基づき、OWLは動的な知的身体相互作用を通じてタスク処理の自然性、効率性、堅牢性を向上させる。GAIAベンチマークテストにおいて、OWLは平均スコア58.18を達成し、オープンソース・フレームワークの中で第1位となった。このプロジェクトは2025年3月7日に正式にオープンソース化され、コードはGitHub (https://github.com/camel-ai/owl)にホストされています。詳細なドキュメントとサンプルを提供し、学術的な探求とタスク自動化シナリオの両方において、AI研究と実世界アプリケーションの統合を促進することを目指しています。

中国語圏のコミュニティで一番悲しいのは、情報源としてCAMEL-AIを紹介しないことだ。エージェントGPT その代わりに、彼らは次のようなことに興味を持っている。マヌス OWLは非常に興味深い。ある製品の商業化は技術の進歩を促進するが、そうでないものもある。

機能一覧

リアルタイム情報検索ウィキペディア、グーグル検索などのオンラインリソースを通じて、最新情報へのアクセスをサポート。
マルチモーダル処理ネットワークまたはローカルでビデオ、画像、音声データを処理する機能。
ブラウザ・オートメーションPlaywrightフレームワークをベースとしており、スクロール、クリック、タイピング、ダウンロードなどのブラウザ・アクションのシミュレーションをサポートします。
文書解像度Word、Excel、PDF、PowerPointファイルの内容を抽出し、テキストまたはMarkdown形式に変換します。
コード実行インタープリターを通してタスクを達成するためのPythonコードの記述と実行をサポート。
マルチインテリジェンス・コラボレーション複数のAI知能がダイナミックに相互作用し、複雑なタスクに協力する。

ヘルプの使用

設置プロセス

OWLはオープンソースのプロジェクトであり、ユーザーはGitHubからソースコードをダウンロードし、実行環境を設定する必要がある。以下は詳細なインストール手順である：

クローン倉庫
ターミナルで以下のコマンドを入力し、OWLソース・コードを取得する：

git clone https://github.com/camel-ai/owl.git
cd owl

環境設定

推奨コンダ::

conda create -n owl python=3.11
conda activate owl

ヴェンヴの代替使用::
```
python -m venv owl_env
```
- Windowsシステムのアクティベーション：
```
owl_env\Scripts\activate
```
- UnixまたはMacOSシステムのアクティベーション：
```
source owl_env/bin/activate
```

依存関係のインストール
環境をアクティブにした後、以下のコマンドを実行して依存関係をインストールする：

python -m pip install -r requirements.txt
playwright install

注釈playwright installブラウザの自動化に必要なコンポーネントのインストールに使用する。

環境変数の設定
OWLは、外部サービス（例えばOpenAIのモデル）を利用するためにAPIキーを設定する必要がある。手順は以下の通りだ：

テンプレートファイルをコピーする：
```
cp .env_template .env
```
コンパイラ.envファイルに、例えばAPIキーを記入する：
```
OPENAI_API_KEY=your_openai_key
```
キー入手のガイドライン：以下を参照owl/.env_templateに記載されているサービス登録URL。
より多くのモデルサポート：CAMELモデル文書（https://docs.camel-ai.org/key_modules/models.html）で利用可能。
銘記する他のモデルでは、複雑なタスクでパフォーマンスが低下する可能性があります。

インストールの確認
以下のコマンドを実行して環境をテストする：

python owl/run.py

コンソールが正常なメッセージを出力すれば、インストールは成功である。

主な機能

1.活動拠点の例

OWLは最小限のスクリプト例を提供するrun.pyそれを体験するには、直接実行してください：

それをターミナルに入力する：

python owl/run.py

出力：コンソールにデフォルト・タスクの実行結果が表示される。

2.マンデートのカスタマイズ

ユーザーはrun.pyカスタムタスクを実行するスクリプト：

スクリプトの編集オープンrun.py例えば、タスクの説明を修正する：

question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")

スクリプトの実行::
```
python owl/run.py
```
結果表示コンソールに株価情報が出力されます。
その他のタスク例::
- "気候変動に関する最近のツイートの感情を分析する"
- "このPythonコードのデバッグを手伝ってください：[コードの内容]"
- 「この研究論文の要点を要約する：[論文URL]".

3.ブラウザ自動化

OWLは、ウェブページのクロールなど、Playwrightを介したブラウザとのインタラクションをサポートしている：

サンプルスクリプトファイルを作成する。web_task.py):

from owl.agents import BrowserAgent
agent = BrowserAgent()
agent.navigate("https://example.com")
content = agent.get_content()
print(content)

スクリプトの実行::
```
python web_task.py
```
結局ウェブページのテキストを出力します。
サポート業務具体的なAPIについては公式ドキュメントを参照してください。

4.文書解析とマルチモーダル処理

文書を解析するローカルファイル（例えばsample.pdf投入owlディレクトリで以下のコードを実行する：
```
from owl.utils import parse_document
text = parse_document("sample.pdf")
print(text)
```

加工ビデオローカルビデオやネットワークビデオの分析に対応：

from owl.multimodal import process_video
result = process_video("https://example.com/video.mp4")
print(result)

注目の機能操作

リアルタイム情報検索

手続き例えば、タスクの説明に情報源を明記する：

question = "从Wikipedia获取人工智能的最新定义。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(answer)

結局ウィキペディアの最新コンテンツに戻る。

GAIAベンチマーク・レプリケーション

動作試験提供されたスクリプトを使ってGAIAの結果を再現してください：
```
python run_gaia_roleplaying.py
```
結果表示各タスクのスコアを出力し、ベンチマークテストにおけるOWLのパフォーマンスを検証します（平均スコア58.18）。

使用上の注意

GitとPython 3.11+がシステムにインストールされている必要がある。
大規模なタスクを実行する場合は、高性能な機器を使用し、ネットワークの安定性を確保することをお勧めします。
クロームのウィンドウが空白で、コンソールからの出力がある場合、これは正常であり、タスクがブラウザとの対話を必要とする場合にのみウィンドウがアクティブになります。