Allgemeine Einführung
OWL (Optimized Workforce Learning) ist ein Open-Source-Framework, das vom CAMEL-AI-Team entwickelt wurde und sich auf die Optimierung der Zusammenarbeit mehrerer intelligenter Körper für die Automatisierung von Aufgaben in der realen Welt konzentriert. Basierend auf der CAMEL-AI Architektur verbessert OWL die Natürlichkeit, Effizienz und Robustheit der Aufgabenbearbeitung durch dynamische intelligente Körperinteraktionen. Im GAIA-Benchmark-Test erreichte OWL eine durchschnittliche Punktzahl von 58,18 und liegt damit an erster Stelle der Open-Source-Frameworks. Das Projekt wurde am 7. März 2025 offiziell als Open Source veröffentlicht, und der Code wird auf GitHub (https://github.com/camel-ai/owl) gehostet, wo eine ausführliche Dokumentation und Beispiele zu finden sind, um die Integration von KI-Forschung und realen Anwendungen sowohl für die akademische Forschung als auch für Aufgabenautomatisierungsszenarien zu fördern.
Das Traurigste an der chinesischsprachigen Gemeinschaft ist, dass sie nie CAMEL-AI und die AGENTGPT Stattdessen sind sie an folgenden Dingen interessiert Manus Die OWL ist sehr interessant. Die Kommerzialisierung einiger Produkte wird den technischen Fortschritt fördern, andere nicht.
Funktionsliste
- Abruf von Informationen in EchtzeitUnterstützt den Zugang zu aktuellen Informationen durch Online-Ressourcen wie Wikipedia, Google Search, etc.
- multimodale VerarbeitungVideo-, Bild- und Audiodaten können über das Netzwerk oder lokal verarbeitet werden.
- Browser-AutomatisierungBasierend auf dem Playwright-Framework, unterstützt es die Simulation von Browser-Aktionen wie Scrollen, Klicken, Tippen und Herunterladen.
- DokumentenauflösungExtrahieren Sie den Inhalt von Word-, Excel-, PDF- und PowerPoint-Dateien und konvertieren Sie sie in das Text- oder Markdown-Format.
- Code-AusführungUnterstützung für das Schreiben und Ausführen von Python-Code zur Erledigung von Aufgaben über den Interpreter.
- Multi-Intelligenz-ZusammenarbeitMehrere KI-Intelligenzen interagieren dynamisch und arbeiten bei komplexen Aufgaben zusammen.
Hilfe verwenden
Ablauf der Installation
OWL ist ein Open-Source-Projekt. Benutzer müssen den Quellcode von GitHub herunterladen und die Laufzeitumgebung konfigurieren. Nachfolgend finden Sie die detaillierten Installationsschritte:
- Klon-Lager
Geben Sie den folgenden Befehl in das Terminal ein, um den OWL-Quellcode zu erhalten:
git clone https://github.com/camel-ai/owl.git
cd owl
- Einrichten der Umgebung
- Empfohlene Conda::
conda create -n owl python=3.11 conda activate owl
- Alternative Verwendung von venv::
python -m venv owl_env
- Windows-Systemaktivierung:
owl_env\Scripts\aktivieren
- Unix- oder MacOS-Systemaktivierung:
Quelle owl_env/bin/activate
- Windows-Systemaktivierung:
- Installation von Abhängigkeiten
Nachdem Sie die Umgebung aktiviert haben, führen Sie den folgenden Befehl aus, um die Abhängigkeiten zu installieren:
python -m pip install -r anforderungen.txt
playwright installieren
Anmerkungen:Dramaturgische Installation
Dient zur Installation der für die Browser-Automatisierung erforderlichen Komponenten.
- Umgebungsvariablen konfigurieren
OWL muss API-Schlüssel konfigurieren, um externe Dienste (z.B. OpenAI-Modelle) zu nutzen. Die Schritte sind wie folgt:
- Kopieren Sie die Vorlagendatei:
cp .env_template .env
- Compiler
.env
Datei den API-Schlüssel ein, zum BeispielOPENAI_API_KEY=Ihr_openai_key
- Richtlinien für die Beschaffung des Schlüssels: siehe
owl/.env_template
Die URL der Dienstregistrierung, die in der Datei - Mehr Modellunterstützung: verfügbar in der CAMEL-Modelldokumentation (https://docs.camel-ai.org/key_modules/models.html).
zur Kenntnis nehmenEs wird offiziell empfohlen, OpenAI-Modelle zu verwenden, um die beste Leistung zu erzielen; andere Modelle können bei komplexen Aufgaben schlecht abschneiden.
- Überprüfen der Installation
Führen Sie den folgenden Befehl aus, um die Umgebung zu testen:
python owl/run.py
Wenn die Konsole eine normale Meldung ausgibt, war die Installation erfolgreich.
Hauptfunktionen
1 Beispiele für Betriebsstützpunkte
OWL bietet ein minimalistisches Beispielskriptrun.py
führen Sie es direkt aus, um es zu erleben:
- Geben Sie ihn in das Terminal ein:
python owl/run.py
- Ausgabe: Die Konsole zeigt die Ergebnisse der Ausführung der Standardaufgabe an.
2. die Anpassung der Mandate
Die Benutzer können dierun.py
Skripte zur Ausführung benutzerdefinierter Aufgaben:
- Skripte bearbeiten: Öffnen
run.py
Ändern Sie die Aufgabenbeschreibung, zum Beispiel:
question = "Prüfen Sie den aktuellen Aktienkurs von Apple Inc."
Gesellschaft = construct_society(Frage)
answer, chat_history, token_count = run_society(Gesellschaft)
logger.success(f "Antwort: {Antwort}")
- Laufende Skripte::
python owl/run.py
- Ergebnisse AnsichtDie Konsole gibt Aktienkursinformationen aus.
- Andere Aufgabenbeispiele::
- "Analyse der Stimmung der jüngsten Tweets zum Klimawandel".
- "Helfen Sie mir, diesen Python-Code zu debuggen:[Code-Inhalt]"
- "Fassen Sie die wichtigsten Punkte dieser Forschungsarbeit zusammen:[URL der Arbeit]".
3. die Browser-Automatisierung
OWL unterstützt die Browser-Interaktion über Playwright, z. B. das Crawlen von Webseiten:
- Beispiel-SkriptErstellen einer Datei (z.B.
web_task.py
):von owl.import BrowserAgent agent = BrowserAgent() agent.navigate("https://example.com") Inhalt = agent.get_content() print(Inhalt)
- Laufende Skripte::
python web_task.py
- am EndeGibt den Textinhalt einer Webseite aus.
- Unterstützte OperationenBlättern, Klicken, Tippen, Herunterladen usw. Spezifische APIs finden Sie in der offiziellen Dokumentation.
4. die Analyse von Dokumenten und die multimodale Verarbeitung
- ein Dokument parsen: Legen Sie eine lokale Datei (z.B.
muster.pdf
(Berechnen) setzen (in)Eule
Verzeichnis den folgenden Code aus:from owl.utils import parse_document text = parse_document("beispiel.pdf") print(text)
- VideoverarbeitungUnterstützung für die Analyse von lokalem oder Netzwerk-Video, zum Beispiel:
from owl.multimodal import process_video ergebnis = process_video("https://example.com/video.mp4") print(ergebnis)
Featured Function Bedienung
Abruf von Informationen in Echtzeit
- Verfahren: Geben Sie die Informationsquelle in der Aufgabenbeschreibung an, zum Beispiel:
question = "Holen Sie sich die neueste Definition von künstlicher Intelligenz aus Wikipedia." Gesellschaft = construct_society(Frage) answer, chat_history, token_count = run_society(Gesellschaft) print(antwort)
- am Ende: Zurück zum neuesten Inhalt auf Wikipedia.
GAIA-Benchmark-Replikation
- EinsatzprüfungReproduzieren Sie die GAIA-Ergebnisse mit Hilfe des mitgelieferten Skripts:
python run_gaia_roleplaying.py
- Ergebnisse AnsichtAusgabe der Ergebnisse für jede Aufgabe, um die Leistung von OWL im Benchmarking-Test zu überprüfen (Durchschnittswert 58,18).
Vorsichtsmaßnahmen für die Verwendung
- Git und Python 3.11+ müssen auf dem System installiert sein.
- Bei der Durchführung umfangreicher Aufgaben empfiehlt es sich, leistungsfähige Geräte zu verwenden und die Stabilität des Netzes zu gewährleisten.
- Wenn das Chrome-Fenster leer ist, aber eine Ausgabe von der Konsole erfolgt, ist dies normal und das Fenster wird nur aktiviert, wenn die Aufgabe eine Browser-Interaktion erfordert.