Optexity: ein Open-Source-Projekt zum Trainieren von KI, um Weboperationen mit menschlichen Demonstrationen durchzuführen

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

Optexity ist ein Open-Source-Projekt auf GitHub, das vom Optexity-Team entwickelt wurde. Im Kern geht es darum, menschliche Demonstrationsdaten zu nutzen, um KI für die Ausführung von Computeraufgaben zu trainieren, insbesondere für die Bedienung von Webseiten. Das Projekt umfasst drei Code-Bibliotheken: ComputerGYM, AgentAI und Playwright, mit denen Benutzer Vorgänge aufzeichnen, Daten verarbeiten und Modelle trainieren können, damit die KI Aufgaben wie das Klicken auf Schaltflächen oder das Ausfüllen von Formularen erlernen kann. Der gesamte Code ist kostenlos und kann von den Nutzern heruntergeladen und verändert werden. In Zukunft werden auch Selbsterkundung, Software-Dokumentation und YouTube-Videotraining unterstützt.

Optexity: ein Open-Source-Projekt zum Trainieren von KI zur Durchführung von Weboperationen mit menschlichen Demonstrationen-1

Funktionsliste

Unterstützt die Aufzeichnung von Demonstrationen menschlicher Handlungen, um die KI für die Ausführung von Webaufgaben zu trainieren.
Bietet Aufgabenumgebungen wie MiniWoB++, einschließlich Klick- und Formularoperationen.
Verarbeitung von Demodaten zur Erzeugung von Formaten für die Ausbildung.
Gemini, vLLM und andere Modelle werden unterstützt und können mit LLaMA-Factory feinabgestimmt werden.
Offener Quellcode steht zur einfachen Anpassung zum Download bereit.
Integration mit Playwright zur Verbesserung der Webautomatisierungsfunktionen.

Hilfe verwenden

Einbauverfahren

Um Optexity zu verwenden, müssen Sie zunächst Ihre Umgebung vorbereiten. Hier sind die Schritte:

Code herunterladen
Geben Sie ihn in das Terminal ein:

mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Dadurch werden drei Code-Bibliotheken heruntergeladen.

Konfiguration der Umgebung
Erstellen Sie eine Umgebung mit Conda:

conda create -n optexity python=3.10 nodejs
conda activate optexity

Installation von Abhängigkeiten
Installieren Sie ComputerGYM und AgentAI:

pip install -e ComputerGYM
pip install -e AgentAI

Installieren Sie Playwright erneut:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Hauptfunktionen

Aufgenommene Demo

einrichten. demonstration_config.yamlReferenz demonstration_config_example.yamlSchreiben Sie das Ziel der Aufgabe auf (z. B. "Klicken Sie auf die Schaltfläche").
Starten Sie die Aufnahme:

./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

Das System zeichnet Ihre Maus- und Tastatureingaben auf.

Verarbeitung von Daten

Aufzeichnung der Nachbearbeitungsdaten:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Dadurch wird der Vorgang in ein AI-lesbares Format umgewandelt.

Trainingsdaten generieren

Erzeugen Sie Trainingsdateien mit AgentAI:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

Die Datei wird im Verzeichnis train_data Ordner, angepasst an LLaMA-Factory.

Ausbildungsmodelle

Trainiert mit LLaMA-Factory, siehe dessen Dokumentation. Nach dem Training wird das Modell in http://localhost:8000.

Testen von AI

Testen Sie KI-Effekte, wie z. B. den Wechsel von Währungen bei HubSpot:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

Das Ergebnis wird auf dem Terminal angezeigt.

Featured Function Bedienung

Menschliches Demonstrationstraining

Der Clou von Optexity ist, der KI menschliche Handlungen beizubringen. Sie zeichnen eine Handlung einmal auf, und die KI lernt, sie zu wiederholen. Die Aufzeichnung und Verarbeitung ist einfach, so dass auch Anfänger sie nutzen können.

Prüfung des ursprünglichen Modells

Ich würde es gerne sofort ausprobieren. Zwillinge Modelle? Laufen:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

Der Schlüssel befindet sich in der https://aistudio.google.com/apikey Holen Sie es sich kostenlos.

MiniWoB++ Integration

MiniWoB++ stellt Aufgaben wie Klicks und Formulare zur Verfügung. Zur Laufzeit versucht die KI, das Ziel zu erreichen, und das Terminal zeigt die Erfolgsquote an.

Open-Source-Erweiterungen

Alle drei Codebasen sind Open Source. Sie können den Code ändern, um Funktionen hinzuzufügen, z. B. neue Aufgaben, oder die Playwright-Logik optimieren, und das Einreichen auf GitHub macht es zu einem offiziellen Teil des Prozesses.

Zusammenfassung des Betriebsablaufs

Installieren Sie die Codebasis und die Umgebung.
Präsentationen aufzeichnen und Daten verarbeiten.
Generieren Sie Trainingsdaten und trainieren Sie das Modell.
Testen Sie die KI und passen Sie die Parameter an.

Die Schritte sind klar und Sie können in wenigen Minuten loslegen.

Anwendungsszenario

KI-Forschung
Die Forscher testeten damit die KI-Leistung bei Webaufgaben.
Web-Automatisierung
Entwickler nutzen KI, um sich wiederholende Aktionen zu automatisieren.
Bildungspraxis
Die Schüler lernen damit den KI-Trainingsprozess.

QA

Brauchen Sie eine Programmiergrundlage?
Erfordert ein wenig Python- und Terminal-Kenntnisse, aber die Tutorials sind detailliert und einfach zu folgen.
Wozu dient die LLaMA-Factory?
Es ist das Feinabstimmungswerkzeug, das die Demodaten in das Trainingsformat umwandelt.
Muss ich mit einer Demo trainieren?
Es ist nicht notwendig, das ursprüngliche Modell direkt zu testen, aber das Demotraining funktioniert besser.

Optexity: ein Open-Source-Projekt zum Trainieren von KI für die Durchführung von Webaktionen mit menschlichen Demonstrationen