Optexity : un projet open source pour entraîner l'IA à effectuer des actions sur le web avec des démonstrations humaines
Introduction générale
Optexity est un projet open source sur GitHub, développé par l'équipe Optexity. Son objectif principal est d'utiliser des données de démonstration humaines pour entraîner l'IA à effectuer des tâches informatiques, en particulier des opérations sur des pages web. Le projet comprend trois bibliothèques de code : ComputerGYM, AgentAI et Playwright, qui permettent aux utilisateurs d'enregistrer des opérations, de traiter des données et d'entraîner des modèles afin que l'IA puisse apprendre des tâches telles que cliquer sur des boutons ou remplir des formulaires. Tous les codes sont gratuits et peuvent être téléchargés et modifiés par les utilisateurs. L'auto-exploration, la documentation sur les logiciels et la formation vidéo sur YouTube seront prises en charge à l'avenir.

Liste des fonctions
- Permet d'enregistrer des démonstrations d'actions humaines afin d'entraîner l'IA à effectuer des tâches sur le web.
- Fournit des environnements de travail tels que MiniWoB++, y compris des opérations de clic et de formulaire.
- Traitement des données de démonstration afin de générer des formats pour la formation.
- Gemini, vLLM et d'autres modèles sont pris en charge et peuvent être affinés avec LLaMA-Factory.
- Un code source ouvert peut être téléchargé pour faciliter la personnalisation.
- Intégrer Playwright pour améliorer les capacités d'automatisation du web.
Utiliser l'aide
Processus d'installation
Pour utiliser Optexity, vous devez d'abord préparer votre environnement. Voici les étapes à suivre :
- Télécharger le code
Saisissez-le dans le terminal :
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
Cette opération permet de télécharger trois bibliothèques de codes.
- Environnement de configuration
Créer un environnement avec Conda :
conda create -n optexity python=3.10 nodejs
conda activate optexity
- Installation des dépendances
Installer ComputerGYM et AgentAI :
pip install -e ComputerGYM
pip install -e AgentAI
Réinstallez Playwright :
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
Principales fonctions
Démonstration enregistrée
- établir
demonstration_config.yaml
référencedemonstration_config_example.yaml
Notez l'objectif de la tâche (par exemple, "cliquer sur le bouton"). - Lancer l'enregistrement :
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
Le système enregistre les actions de la souris et du clavier.
Traitement des données
Enregistrer les données de post-traitement :
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
Cette opération convertit l'opération en un format lisible par l'IA.
Générer des données de formation
Générer des fichiers de formation avec AgentAI :
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
Le fichier est enregistré dans le dossier train_data
adapté à LLaMA-Factory.
Modèles de formation
Entraîné avec LLaMA-Factory, voir sa documentation. Après l'entraînement, le modèle est déployé dans http://localhost:8000
.
Test de l'IA
Testez les effets de l'IA, comme le changement de devise chez HubSpot :
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
Le résultat est affiché dans le terminal.
Fonction en vedette Fonctionnement
Formation à la démonstration humaine
Le point fort d'Optexity est l'apprentissage de l'IA à partir d'actions humaines. Vous enregistrez une action une fois, et l'IA apprend à la répéter. L'enregistrement et le traitement sont faciles, de sorte que même les novices peuvent l'utiliser.
Test du modèle original
J'aimerais l'essayer tout de suite. Gémeaux Modèles ? Exécutez :
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
La clé se trouve dans le https://aistudio.google.com/apikey
Obtenez-le gratuitement.
Intégration de MiniWoB
MiniWoB++ fournit des tâches telles que des clics et des formulaires. Lors de l'exécution, l'IA tente d'atteindre l'objectif et le terminal affiche le taux de réussite.
Extensions Open Source
Les trois bases de code sont libres. Vous pouvez modifier le code pour ajouter des fonctionnalités, comme de nouvelles tâches, ou peaufiner la logique de Playwright, et le soumettre à GitHub en fait une partie officielle du processus.
Résumé du processus opérationnel
- Installer la base de code et l'environnement.
- Enregistrer les présentations et traiter les données.
- Générer des données de formation et former le modèle.
- Tester l'IA et ajuster les paramètres.
Les étapes sont claires et vous pouvez commencer en quelques minutes.
scénario d'application
- Recherche en IA
Les chercheurs l'ont utilisé pour tester les performances de l'IA sur des tâches web. - automatisation du web
Les développeurs utilisent l'IA pour automatiser les actions répétitives. - pratique éducative
Les étudiants l'utilisent pour apprendre le processus de formation à l'IA.
QA
- Besoin d'une base en programmation ?
Nécessite quelques connaissances en Python et en terminal, mais les tutoriels sont détaillés et faciles à suivre. - À quoi sert LLaMA-Factory ?
Il s'agit de l'outil de mise au point qui convertit les données de démonstration en format de formation. - Dois-je m'entraîner avec un démonstrateur ?
Ce n'est pas nécessaire, vous pouvez tester le modèle original directement, mais l'entraînement de démonstration est plus efficace.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...