OWL: Ein automatisiertes Werkzeug für die Zusammenarbeit mehrerer Intelligenzen bei realistischen Aufgaben

Neueste AI-RessourcenAktualisiert vor 7 Monaten AI-Austauschkreis

21.6K 00

Allgemeine Einführung

OWL (Optimized Workforce Learning) ist ein Open-Source-Framework, das vom CAMEL-AI-Team entwickelt wurde und sich auf die Optimierung der Zusammenarbeit mehrerer intelligenter Körper für die Automatisierung von Aufgaben in der realen Welt konzentriert. Basierend auf der CAMEL-AI Architektur verbessert OWL die Natürlichkeit, Effizienz und Robustheit der Aufgabenbearbeitung durch dynamische intelligente Körperinteraktionen. Im GAIA-Benchmark-Test erreichte OWL eine durchschnittliche Punktzahl von 58,18 und liegt damit an erster Stelle der Open-Source-Frameworks. Das Projekt wurde am 7. März 2025 offiziell als Open-Source-Framework veröffentlicht, und der Code wird auf GitHub (https://github.com/camel-ai/owl) gehostet, wo eine ausführliche Dokumentation und Beispiele zur Verfügung stehen, um die Integration von KI-Forschung und realen Anwendungen sowohl für die akademische Forschung als auch für Aufgabenautomatisierungsszenarien zu fördern.

Das Traurigste an der chinesischsprachigen Gemeinschaft ist, dass sie nie CAMEL-AI und die AGENTGPT Stattdessen sind sie an folgenden Dingen interessiert Manus Die OWL ist sehr interessant. Die Kommerzialisierung einiger Produkte wird den technischen Fortschritt fördern, andere nicht.

Funktionsliste

Abruf von Informationen in EchtzeitUnterstützt den Zugang zu aktuellen Informationen durch Online-Ressourcen wie Wikipedia, Google Search, etc.
multimodale VerarbeitungVideo-, Bild- und Audiodaten können über das Netzwerk oder lokal verarbeitet werden.
Browser-AutomatisierungBasierend auf dem Playwright-Framework, unterstützt es die Simulation von Browser-Aktionen wie Scrollen, Klicken, Tippen und Herunterladen.
DokumentenauflösungExtrahieren Sie den Inhalt von Word-, Excel-, PDF- und PowerPoint-Dateien und konvertieren Sie sie in das Text- oder Markdown-Format.
Code-AusführungUnterstützung für das Schreiben und Ausführen von Python-Code zur Erledigung von Aufgaben über den Interpreter.
Multi-Intelligenz-ZusammenarbeitMehrere KI-Intelligenzen interagieren dynamisch und arbeiten bei komplexen Aufgaben zusammen.

Hilfe verwenden

Einbauverfahren

OWL ist ein Open-Source-Projekt. Benutzer müssen den Quellcode von GitHub herunterladen und die Laufzeitumgebung konfigurieren. Nachfolgend finden Sie die detaillierten Installationsschritte:

Klon-Lager
Geben Sie den folgenden Befehl in das Terminal ein, um den OWL-Quellcode zu erhalten:

git clone https://github.com/camel-ai/owl.git
cd owl

Einrichten der Umgebung

Empfohlene Conda::

conda create -n owl python=3.11
conda activate owl

Alternative Verwendung von venv::
```
python -m venv owl_env
```
- Windows-Systemaktivierung:
```
owl_env\Scripts\activate
```
- Unix- oder MacOS-Systemaktivierung:
```
source owl_env/bin/activate
```

Installation von Abhängigkeiten
Nachdem Sie die Umgebung aktiviert haben, führen Sie den folgenden Befehl aus, um die Abhängigkeiten zu installieren:

python -m pip install -r requirements.txt
playwright install

Anmerkungen:playwright installDient zur Installation der für die Browser-Automatisierung erforderlichen Komponenten.

Umgebungsvariablen konfigurieren
OWL muss API-Schlüssel konfigurieren, um externe Dienste (z.B. OpenAI-Modelle) zu nutzen. Die Schritte sind wie folgt:

Kopieren Sie die Vorlagendatei:
```
cp .env_template .env
```
Compiler.envDatei den API-Schlüssel ein, zum Beispiel
```
OPENAI_API_KEY=your_openai_key
```
Richtlinien für die Beschaffung des Schlüssels: sieheowl/.env_templateDie URL der Dienstregistrierung, die in der Datei
Mehr Modellunterstützung: verfügbar in der CAMEL-Modelldokumentation (https://docs.camel-ai.org/key_modules/models.html).
zur Kenntnis nehmenEs wird offiziell empfohlen, OpenAI-Modelle zu verwenden, um die beste Leistung zu erzielen; andere Modelle können bei komplexen Aufgaben schlecht abschneiden.

Überprüfen der Installation
Führen Sie den folgenden Befehl aus, um die Umgebung zu testen:

python owl/run.py

Wenn die Konsole eine normale Meldung ausgibt, war die Installation erfolgreich.

Hauptfunktionen

1 Beispiele für Operationsbasen

OWL bietet ein minimalistisches Beispielskriptrun.pyführen Sie es direkt aus, um es zu erleben:

Geben Sie ihn in das Terminal ein:

python owl/run.py

Ausgabe: Die Konsole zeigt die Ergebnisse der Ausführung der Standardaufgabe an.

2. die Anpassung der Mandate

Die Benutzer können dierun.pySkripte zur Ausführung benutzerdefinierter Aufgaben:

Skripte bearbeiten: Öffnenrun.pyÄndern Sie die Aufgabenbeschreibung, zum Beispiel:

question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")

Laufende Skripte::
```
python owl/run.py
```
Ergebnisse AnsichtDie Konsole gibt Aktienkursinformationen aus.
Andere Aufgabenbeispiele::
- "Analyse der Stimmung der jüngsten Tweets zum Klimawandel".
- "Helfen Sie mir, diesen Python-Code zu debuggen:[Code-Inhalt]"
- "Fassen Sie die wichtigsten Punkte dieser Forschungsarbeit zusammen:[URL der Arbeit]".

3. die Browser-Automatisierung

OWL unterstützt die Browser-Interaktion über Playwright, z. B. das Crawlen von Webseiten:

Beispiel-SkriptErstellen einer Datei (z.B.web_task.py):

from owl.agents import BrowserAgent
agent = BrowserAgent()
agent.navigate("https://example.com")
content = agent.get_content()
print(content)

Laufende Skripte::
```
python web_task.py
```
am EndeGibt den Textinhalt einer Webseite aus.
Unterstützte OperationenBlättern, Klicken, Tippen, Herunterladen usw. Spezifische APIs finden Sie in der offiziellen Dokumentation.

4. die Analyse von Dokumenten und die multimodale Verarbeitung

ein Dokument parsen: Legen Sie eine lokale Datei (z.B.sample.pdf(Berechnen) setzen (in)owlVerzeichnis den folgenden Code aus:
```
from owl.utils import parse_document
text = parse_document("sample.pdf")
print(text)
```

VideoverarbeitungUnterstützung für die Analyse von lokalem oder Netzwerk-Video, zum Beispiel:

from owl.multimodal import process_video
result = process_video("https://example.com/video.mp4")
print(result)

Featured Function Bedienung

Abruf von Informationen in Echtzeit

Verfahren: Geben Sie die Informationsquelle in der Aufgabenbeschreibung an, zum Beispiel:

question = "从Wikipedia获取人工智能的最新定义。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(answer)

am Ende: Zurück zum neuesten Inhalt auf Wikipedia.

GAIA-Benchmark-Replikation

EinsatzprüfungReproduzieren Sie die GAIA-Ergebnisse mit Hilfe des mitgelieferten Skripts:
```
python run_gaia_roleplaying.py
```
Ergebnisse AnsichtAusgabe der Ergebnisse für jede Aufgabe, um die Leistung von OWL im Benchmarking-Test zu überprüfen (Durchschnittswert 58,18).

Vorsichtsmaßnahmen für die Verwendung

Git und Python 3.11+ müssen auf dem System installiert sein.
Bei der Durchführung umfangreicher Aufgaben empfiehlt es sich, leistungsfähige Geräte zu verwenden und die Stabilität des Netzes zu gewährleisten.
Wenn das Chrome-Fenster leer ist, aber eine Ausgabe von der Konsole erfolgt, ist dies normal und das Fenster wird nur aktiviert, wenn die Aufgabe eine Browser-Interaktion erfordert.