Allgemeine Einführung
Optexity ist ein Open-Source-Projekt auf GitHub, das vom Optexity-Team entwickelt wurde. Im Kern geht es darum, menschliche Demonstrationsdaten zu nutzen, um KI für die Ausführung von Computeraufgaben zu trainieren, insbesondere für die Bedienung von Webseiten. Das Projekt umfasst drei Code-Bibliotheken: ComputerGYM, AgentAI und Playwright, mit denen Benutzer Vorgänge aufzeichnen, Daten verarbeiten und Modelle trainieren können, damit die KI Aufgaben wie das Klicken auf Schaltflächen oder das Ausfüllen von Formularen erlernen kann. Der gesamte Code ist kostenlos und kann von den Nutzern heruntergeladen und verändert werden. In Zukunft werden auch Selbsterkundung, Software-Dokumentation und YouTube-Videotraining unterstützt.
Funktionsliste
- Unterstützt die Aufzeichnung von Demonstrationen menschlicher Handlungen, um die KI für die Ausführung von Webaufgaben zu trainieren.
- Bietet Aufgabenumgebungen wie MiniWoB++, einschließlich Klick- und Formularoperationen.
- Verarbeitung von Demodaten zur Erzeugung von Formaten für die Ausbildung.
- Gemini, vLLM und andere Modelle werden unterstützt und können mit LLaMA-Factory feinabgestimmt werden.
- Offener Quellcode steht zur einfachen Anpassung zum Download bereit.
- Integration mit Playwright zur Verbesserung der Webautomatisierungsfunktionen.
Hilfe verwenden
Einbauverfahren
Um Optexity zu verwenden, müssen Sie zunächst Ihre Umgebung vorbereiten. Hier sind die Schritte:
- Code herunterladen
Geben Sie ihn in das Terminal ein:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
Dadurch werden drei Code-Bibliotheken heruntergeladen.
- Konfiguration der Umgebung
Erstellen Sie eine Umgebung mit Conda:
conda create -n optexity python=3.10 nodejs
conda activate optexity
- Installation von Abhängigkeiten
Installieren Sie ComputerGYM und AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI
Installieren Sie Playwright erneut:
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
Hauptfunktionen
Aufgenommene Demo
- einrichten.
demonstration_config.yaml
Referenzdemonstration_config_example.yaml
Schreiben Sie das Ziel der Aufgabe auf (z. B. "Klicken Sie auf die Schaltfläche"). - Starten Sie die Aufnahme:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
Das System zeichnet Ihre Maus- und Tastatureingaben auf.
Verarbeitung von Daten
Aufzeichnung der Nachbearbeitungsdaten:
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
Dadurch wird der Vorgang in ein AI-lesbares Format umgewandelt.
Trainingsdaten generieren
Erzeugen Sie Trainingsdateien mit AgentAI:
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
Die Datei wird im Verzeichnis train_data
Ordner, angepasst an LLaMA-Factory.
Ausbildungsmodelle
Trainiert mit LLaMA-Factory, siehe dessen Dokumentation. Nach dem Training wird das Modell in http://localhost:8000
.
Testen von AI
Testen Sie KI-Effekte, wie z. B. den Wechsel von Währungen bei HubSpot:
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
Das Ergebnis wird auf dem Terminal angezeigt.
Featured Function Bedienung
Menschliches Demonstrationstraining
Der Clou von Optexity ist, der KI menschliche Handlungen beizubringen. Sie zeichnen eine Handlung einmal auf, und die KI lernt, sie zu wiederholen. Die Aufzeichnung und Verarbeitung ist einfach, so dass auch Anfänger sie nutzen können.
Prüfung des ursprünglichen Modells
Ich würde es gerne sofort ausprobieren. Zwillinge Modelle? Laufen:
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
Der Schlüssel befindet sich in der https://aistudio.google.com/apikey
Holen Sie es sich kostenlos.
MiniWoB++ Integration
MiniWoB++ stellt Aufgaben wie Klicks und Formulare zur Verfügung. Zur Laufzeit versucht die KI, das Ziel zu erreichen, und das Terminal zeigt die Erfolgsquote an.
Open-Source-Erweiterungen
Alle drei Codebasen sind Open Source. Sie können den Code ändern, um Funktionen hinzuzufügen, z. B. neue Aufgaben, oder die Playwright-Logik optimieren, und das Einreichen auf GitHub macht es zu einem offiziellen Teil des Prozesses.
Zusammenfassung des Betriebsablaufs
- Installieren Sie die Codebasis und die Umgebung.
- Präsentationen aufzeichnen und Daten verarbeiten.
- Generieren Sie Trainingsdaten und trainieren Sie das Modell.
- Testen Sie die KI und passen Sie die Parameter an.
Die Schritte sind klar und Sie können in wenigen Minuten loslegen.
Anwendungsszenario
- KI-Forschung
Die Forscher testeten damit die KI-Leistung bei Webaufgaben. - Web-Automatisierung
Entwickler nutzen KI, um sich wiederholende Aktionen zu automatisieren. - Bildungspraxis
Die Schüler lernen damit den KI-Trainingsprozess.
QA
- Brauchen Sie eine Programmiergrundlage?
Erfordert ein wenig Python- und Terminal-Kenntnisse, aber die Tutorials sind detailliert und einfach zu folgen. - Wozu dient die LLaMA-Factory?
Es ist das Feinabstimmungswerkzeug, das die Demodaten in das Trainingsformat umwandelt. - Muss ich mit einer Demo trainieren?
Es ist nicht notwendig, das ursprüngliche Modell direkt zu testen, aber das Demotraining funktioniert besser.