Optexity : un projet open source pour entraîner l'IA à effectuer des actions sur le web avec des démonstrations humaines

堆友AI

Introduction générale

Optexity est un projet open source sur GitHub, développé par l'équipe Optexity. Son objectif principal est d'utiliser des données de démonstration humaines pour entraîner l'IA à effectuer des tâches informatiques, en particulier des opérations sur des pages web. Le projet comprend trois bibliothèques de code : ComputerGYM, AgentAI et Playwright, qui permettent aux utilisateurs d'enregistrer des opérations, de traiter des données et d'entraîner des modèles afin que l'IA puisse apprendre des tâches telles que cliquer sur des boutons ou remplir des formulaires. Tous les codes sont gratuits et peuvent être téléchargés et modifiés par les utilisateurs. L'auto-exploration, la documentation sur les logiciels et la formation vidéo sur YouTube seront prises en charge à l'avenir.

Optexity:用人类演示训练AI执行网页操作的开源项目

 

Liste des fonctions

  • Permet d'enregistrer des démonstrations d'actions humaines afin d'entraîner l'IA à effectuer des tâches sur le web.
  • Fournit des environnements de travail tels que MiniWoB++, y compris des opérations de clic et de formulaire.
  • Traitement des données de démonstration afin de générer des formats pour la formation.
  • Gemini, vLLM et d'autres modèles sont pris en charge et peuvent être affinés avec LLaMA-Factory.
  • Un code source ouvert peut être téléchargé pour faciliter la personnalisation.
  • Intégrer Playwright pour améliorer les capacités d'automatisation du web.

 

Utiliser l'aide

Processus d'installation

Pour utiliser Optexity, vous devez d'abord préparer votre environnement. Voici les étapes à suivre :

  1. Télécharger le code
    Saisissez-le dans le terminal :
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Cette opération permet de télécharger trois bibliothèques de codes.

  1. Environnement de configuration
    Créer un environnement avec Conda :
conda create -n optexity python=3.10 nodejs
conda activate optexity
  1. Installation des dépendances
    Installer ComputerGYM et AgentAI :
pip install -e ComputerGYM
pip install -e AgentAI

Réinstallez Playwright :

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Principales fonctions

Démonstration enregistrée

  1. établir demonstration_config.yamlréférence demonstration_config_example.yamlNotez l'objectif de la tâche (par exemple, "cliquer sur le bouton").
  2. Lancer l'enregistrement :
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

Le système enregistre les actions de la souris et du clavier.

Traitement des données

Enregistrer les données de post-traitement :

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Cette opération convertit l'opération en un format lisible par l'IA.

Générer des données de formation

Générer des fichiers de formation avec AgentAI :

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

Le fichier est enregistré dans le dossier train_data adapté à LLaMA-Factory.

Modèles de formation

Entraîné avec LLaMA-Factory, voir sa documentation. Après l'entraînement, le modèle est déployé dans http://localhost:8000.

Test de l'IA

Testez les effets de l'IA, comme le changement de devise chez HubSpot :

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

Le résultat est affiché dans le terminal.

Fonction en vedette Fonctionnement

Formation à la démonstration humaine

Le point fort d'Optexity est l'apprentissage de l'IA à partir d'actions humaines. Vous enregistrez une action une fois, et l'IA apprend à la répéter. L'enregistrement et le traitement sont faciles, de sorte que même les novices peuvent l'utiliser.

Test du modèle original

J'aimerais l'essayer tout de suite. Gémeaux Modèles ? Exécutez :

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

La clé se trouve dans le https://aistudio.google.com/apikey Obtenez-le gratuitement.

Intégration de MiniWoB

MiniWoB++ fournit des tâches telles que des clics et des formulaires. Lors de l'exécution, l'IA tente d'atteindre l'objectif et le terminal affiche le taux de réussite.

Extensions Open Source

Les trois bases de code sont libres. Vous pouvez modifier le code pour ajouter des fonctionnalités, comme de nouvelles tâches, ou peaufiner la logique de Playwright, et le soumettre à GitHub en fait une partie officielle du processus.

Résumé du processus opérationnel

  1. Installer la base de code et l'environnement.
  2. Enregistrer les présentations et traiter les données.
  3. Générer des données de formation et former le modèle.
  4. Tester l'IA et ajuster les paramètres.

Les étapes sont claires et vous pouvez commencer en quelques minutes.

 

scénario d'application

  1. Recherche en IA
    Les chercheurs l'ont utilisé pour tester les performances de l'IA sur des tâches web.
  2. automatisation du web
    Les développeurs utilisent l'IA pour automatiser les actions répétitives.
  3. pratique éducative
    Les étudiants l'utilisent pour apprendre le processus de formation à l'IA.

 

QA

  1. Besoin d'une base en programmation ?
    Nécessite quelques connaissances en Python et en terminal, mais les tutoriels sont détaillés et faciles à suivre.
  2. À quoi sert LLaMA-Factory ?
    Il s'agit de l'outil de mise au point qui convertit les données de démonstration en format de formation.
  3. Dois-je m'entraîner avec un démonstrateur ?
    Ce n'est pas nécessaire, vous pouvez tester le modèle original directement, mais l'entraînement de démonstration est plus efficace.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...