OWL : un outil automatisé pour la collaboration multi-intelligence sur des tâches réalistes

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

21.3K 00

Introduction générale

OWL (Optimized Workforce Learning) est un cadre open source développé par l'équipe CAMEL-AI qui se concentre sur l'optimisation de la collaboration entre plusieurs corps intelligents pour l'automatisation des tâches du monde réel. Basé sur l'architecture CAMEL-AI, OWL améliore le naturel, l'efficacité et la robustesse du traitement des tâches grâce à des interactions dynamiques entre corps intelligents. Dans le test de référence GAIA, OWL a obtenu un score moyen de 58,18, se classant ainsi au premier rang des frameworks open source. Le projet est officiellement ouvert le 7 mars 2025, et le code est hébergé sur GitHub (https://github.com/camel-ai/owl), qui fournit une documentation détaillée et des exemples, dans le but de promouvoir l'intégration de la recherche en IA et des applications du monde réel, tant pour l'exploration académique que pour les scénarios d'automatisation des tâches.

Le plus triste dans la communauté sinophone, c'est qu'en tant que source d'information, elle ne présente jamais CAMEL-AI et les AGENTGPT Ils s'intéressent plutôt à quelque chose comme Manus L'OWL est très intéressant. La commercialisation de certains produits favorisera le progrès technologique, d'autres non.

Liste des fonctions

Recherche d'informations en temps réelLe programme d'éducation et de formation tout au long de la vie : il favorise l'accès à des informations actualisées grâce à des ressources en ligne telles que Wikipedia, Google Search, etc.
traitement multimodalCapacité à traiter des données vidéo, image et audio sur le réseau ou localement.
Automatisation du navigateur: Basé sur le cadre Playwright, il prend en charge la simulation des actions du navigateur telles que le défilement, le clic, la saisie et le téléchargement.
résolution des documentsLes fichiers Word, Excel, PDF et PowerPoint peuvent être extraits et convertis en texte ou en format Markdown.
exécution du codeSupport pour l'écriture et l'exécution de code Python pour accomplir des tâches par l'intermédiaire de l'interpréteur.
collaboration multi-intelligenceL'intelligence artificielle : plusieurs intelligences artificielles interagissent de manière dynamique pour collaborer à des tâches complexes.

Utiliser l'aide

Processus d'installation

OWL est un projet open source, les utilisateurs doivent télécharger le code source depuis GitHub et configurer l'environnement d'exécution. Voici les étapes détaillées de l'installation :

entrepôt de clones
Entrez la commande suivante dans le terminal pour obtenir le code source OWL :

git clone https://github.com/camel-ai/owl.git
cd owl

Mise en place de l'environnement

Conda recommandé: :

conda create -n owl python=3.11
conda activate owl

Utilisation alternative de venv: :
```
python -m venv owl_env
```
- Activation du système Windows :
```
owl_env\Scripts\activate
```
- Activation du système Unix ou MacOS :
```
source owl_env/bin/activate
```

Installation des dépendances
Après avoir activé l'environnement, exécutez la commande suivante pour installer les dépendances :

python -m pip install -r requirements.txt
playwright install

Notes :playwright installUtilisé pour installer les composants nécessaires à l'automatisation du navigateur.

Configuration des variables d'environnement
OWL a besoin de configurer des clés API pour utiliser des services externes (par exemple, les modèles OpenAI). Les étapes sont les suivantes :

Copier le fichier modèle :
```
cp .env_template .env
```
compilateur.envremplissez la clé de l'API, par exemple :
```
OPENAI_API_KEY=your_openai_key
```
Lignes directrices pour l'obtention de la clé : voirowl/.env_templateL'URL d'enregistrement du service figurant dans le
Plus de support de modèle : disponible dans la documentation du modèle CAMEL (https://docs.camel-ai.org/key_modules/models.html).
prendre noteIl est officiellement recommandé d'utiliser les modèles OpenAI pour obtenir les meilleures performances, les autres modèles risquant d'être moins performants dans les tâches complexes.

Vérifier l'installation
Exécutez la commande suivante pour tester l'environnement :

python owl/run.py

Si la console affiche un message normal, l'installation a réussi.

Principales fonctions

1. exemples de bases opérationnelles

OWL fournit un script d'exemple minimalisterun.pyLancez-la directement pour en faire l'expérience :

Saisissez-le dans le terminal :

python owl/run.py

Résultat : La console affiche les résultats de l'exécution de la tâche par défaut.

2) Personnalisation des mandats

Les utilisateurs peuvent modifier lesrun.pyScripts pour exécuter des tâches personnalisées :

Édition de scripts: Ouvrirrun.pymodifier la description de la tâche, par exemple :

question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")

Exécution de scripts: :
```
python owl/run.py
```
Vue des résultatsLa console affichera les informations sur le cours des actions.
Autres exemples de tâches: :
- "Analyse du sentiment des tweets récents sur le changement climatique".
- "Aidez-moi à déboguer ce code Python : [contenu du code]"
- "Résumez les principaux points de ce document de recherche : [URL du document]".

3. l'automatisation du navigateur

OWL prend en charge l'interaction avec le navigateur via Playwright, comme l'exploration de pages web :

Exemple de scriptCréer un fichier (par ex.web_task.py) :

from owl.agents import BrowserAgent
agent = BrowserAgent()
agent.navigate("https://example.com")
content = agent.get_content()
print(content)

Exécution de scripts: :
```
python web_task.py
```
en fin de compte: Affiche le contenu textuel d'une page web.
Opérations soutenues: défilement, clic, saisie, téléchargement, etc. Se référer à la documentation officielle pour les API spécifiques.

4. analyse documentaire et traitement multimodal

analyser un documentPlacez un fichier local (par ex.sample.pdf(informatique) mettre (dans)owlexécutez le code suivant :
```
from owl.utils import parse_document
text = parse_document("sample.pdf")
print(text)
```
Traitement de la vidéoLes services d'analyse de la vidéo locale ou en réseau, par exemple, sont pris en charge :
```
from owl.multimodal import process_video
result = process_video("https://example.com/video.mp4")
print(result)
```

Fonction en vedette Fonctionnement

Recherche d'informations en temps réel

procédureLa source de l'information dans la description de la tâche est précisée, par exemple : "La source de l'information dans la description de la tâche est précisée :
```
question = "从Wikipedia获取人工智能的最新定义。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(answer)
```
en fin de compte: Retour au contenu le plus récent de Wikipédia.

Réplication du benchmark GAIA

test opérationnelLes résultats de GAIA peuvent être reproduits à l'aide du script fourni :
```
python run_gaia_roleplaying.py
```
Vue des résultatsLe test d'évaluation des performances de l'OWL (score moyen de 58,18) a permis de vérifier la performance de l'OWL dans le test d'évaluation des performances.

Précautions d'emploi

Git et Python 3.11+ doivent être installés sur le système.
Lors de l'exécution de tâches de grande envergure, il est recommandé d'utiliser un équipement performant et de veiller à la stabilité du réseau.
Si la fenêtre de Chrome est vide mais qu'il y a une sortie de la console, c'est normal et la fenêtre ne sera activée que si la tâche nécessite une interaction avec le navigateur.