Optexity : un projet open source pour entraîner l'IA à effectuer des actions sur le web avec des démonstrations humaines

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

17.9K 00

Introduction générale

Optexity est un projet open source sur GitHub, développé par l'équipe Optexity. Son objectif principal est d'utiliser des données de démonstration humaines pour entraîner l'IA à effectuer des tâches informatiques, en particulier des opérations sur des pages web. Le projet comprend trois bibliothèques de code : ComputerGYM, AgentAI et Playwright, qui permettent aux utilisateurs d'enregistrer des opérations, de traiter des données et d'entraîner des modèles afin que l'IA puisse apprendre des tâches telles que cliquer sur des boutons ou remplir des formulaires. Tous les codes sont gratuits et peuvent être téléchargés et modifiés par les utilisateurs. L'auto-exploration, la documentation sur les logiciels et la formation vidéo sur YouTube seront prises en charge à l'avenir.

Liste des fonctions

Permet d'enregistrer des démonstrations d'actions humaines afin d'entraîner l'IA à effectuer des tâches sur le web.
Fournit des environnements de travail tels que MiniWoB++, y compris des opérations de clic et de formulaire.
Traitement des données de démonstration afin de générer des formats pour la formation.
Gemini, vLLM et d'autres modèles sont pris en charge et peuvent être affinés avec LLaMA-Factory.
Un code source ouvert peut être téléchargé pour faciliter la personnalisation.
Intégrer Playwright pour améliorer les capacités d'automatisation du web.

Utiliser l'aide

Processus d'installation

Pour utiliser Optexity, vous devez d'abord préparer votre environnement. Voici les étapes à suivre :

Télécharger le code
Saisissez-le dans le terminal :

mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Cette opération permet de télécharger trois bibliothèques de codes.

Environnement de configuration
Créer un environnement avec Conda :

conda create -n optexity python=3.10 nodejs
conda activate optexity

Installation des dépendances
Installer ComputerGYM et AgentAI :

pip install -e ComputerGYM
pip install -e AgentAI

Réinstallez Playwright :

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Principales fonctions

Démonstration enregistrée

établir demonstration_config.yamlréférence demonstration_config_example.yamlNotez l'objectif de la tâche (par exemple, "cliquer sur le bouton").
Lancer l'enregistrement :

./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

Le système enregistre les actions de la souris et du clavier.

Traitement des données

Enregistrer les données de post-traitement :

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Cette opération convertit l'opération en un format lisible par l'IA.

Générer des données de formation

Générer des fichiers de formation avec AgentAI :

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

Le fichier est enregistré dans le dossier train_data adapté à LLaMA-Factory.

Modèles de formation

Entraîné avec LLaMA-Factory, voir sa documentation. Après l'entraînement, le modèle est déployé dans http://localhost:8000.

Test de l'IA

Testez les effets de l'IA, comme le changement de devise chez HubSpot :

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

Le résultat est affiché dans le terminal.

Fonction en vedette Fonctionnement

Formation à la démonstration humaine

Le point fort d'Optexity est l'apprentissage de l'IA à partir d'actions humaines. Vous enregistrez une action une fois, et l'IA apprend à la répéter. L'enregistrement et le traitement sont faciles, de sorte que même les novices peuvent l'utiliser.

Test du modèle original

J'aimerais l'essayer tout de suite. Gémeaux Modèles ? Exécutez :

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

La clé se trouve dans le https://aistudio.google.com/apikey Obtenez-le gratuitement.

Intégration de MiniWoB

MiniWoB++ fournit des tâches telles que des clics et des formulaires. Lors de l'exécution, l'IA tente d'atteindre l'objectif et le terminal affiche le taux de réussite.

Extensions Open Source

Les trois bases de code sont libres. Vous pouvez modifier le code pour ajouter des fonctionnalités, comme de nouvelles tâches, ou peaufiner la logique de Playwright, et le soumettre à GitHub en fait une partie officielle du processus.

Résumé du processus opérationnel

Installer la base de code et l'environnement.
Enregistrer les présentations et traiter les données.
Générer des données de formation et former le modèle.
Tester l'IA et ajuster les paramètres.

Les étapes sont claires et vous pouvez commencer en quelques minutes.

scénario d'application

Recherche en IA
Les chercheurs l'ont utilisé pour tester les performances de l'IA sur des tâches web.
automatisation du web
Les développeurs utilisent l'IA pour automatiser les actions répétitives.
pratique éducative
Les étudiants l'utilisent pour apprendre le processus de formation à l'IA.

QA

Besoin d'une base en programmation ?
Nécessite quelques connaissances en Python et en terminal, mais les tutoriels sont détaillés et faciles à suivre.
À quoi sert LLaMA-Factory ?
Il s'agit de l'outil de mise au point qui convertit les données de démonstration en format de formation.
Dois-je m'entraîner avec un démonstrateur ?
Ce n'est pas nécessaire, vous pouvez tester le modèle original directement, mais l'entraînement de démonstration est plus efficace.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Simplifié : un outil unique de marketing de contenu par l'IA pour rationaliser votre processus de marketing

Dernières ressources sur l'IA # AI Marketing

Il y a 8 mois

017.8K

CosyVoice : projet open source de clonage de voix en 3 secondes lancé par Ali, avec prise en charge des étiquettes contrôlées par les émotions

Dernières ressources sur l'IA # AI Java Open Source Projecct # Clonage vocal AI

Il y a 7 mois

050.5K

OpenRouter : interface unifiée pour l'intégration de plusieurs LLM, interface libre pour les grands modèles

Dernières ressources sur l'IA # AI Open Services # Plate-forme de dialogue multi-modèle intégrée à l'IA # Free Large Model API

Il y a 3 mois

026.5K

RynnRCP - Premier protocole de contexte robotique open source de l'Institut Ali Dharma

Dernières ressources sur l'IA

Il y a 1 mois

019.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Optexity : un projet open source pour entraîner l'IA à effectuer des actions sur le web avec des démonstrations humaines

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Principales fonctions

Démonstration enregistrée

Traitement des données

Générer des données de formation

Modèles de formation

Test de l'IA

Fonction en vedette Fonctionnement

Formation à la démonstration humaine

Test du modèle original

Intégration de MiniWoB

Extensions Open Source

Résumé du processus opérationnel

scénario d'application

QA

II-Researcher : Recherche approfondie et raisonnement par étapes pour répondre à des questions complexes

Avcado AI : un assistant de santé qui scanne les étiquettes des produits alimentaires et analyse les ingrédients

Articles connexes

Simplifié : un outil unique de marketing de contenu par l'IA pour rationaliser votre processus de marketing

CosyVoice : projet open source de clonage de voix en 3 secondes lancé par Ali, avec prise en charge des étiquettes contrôlées par les émotions

OpenRouter : interface unifiée pour l'intégration de plusieurs LLM, interface libre pour les grands modèles

RynnRCP - Premier protocole de contexte robotique open source de l'Institut Ali Dharma

Pas de commentaires

Dernières collections

Derniers articles

Optexity : un projet open source pour entraîner l'IA à effectuer des actions sur le web avec des démonstrations humaines

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Principales fonctions

Démonstration enregistrée

Traitement des données

Générer des données de formation

Modèles de formation

Test de l'IA

Fonction en vedette Fonctionnement

Formation à la démonstration humaine

Test du modèle original

Intégration de MiniWoB

Extensions Open Source

Résumé du processus opérationnel

scénario d'application

QA

II-Researcher : Recherche approfondie et raisonnement par étapes pour répondre à des questions complexes

Avcado AI : un assistant de santé qui scanne les étiquettes des produits alimentaires et analyse les ingrédients

Articles connexes

Simplifié : un outil unique de marketing de contenu par l'IA pour rationaliser votre processus de marketing

CosyVoice : projet open source de clonage de voix en 3 secondes lancé par Ali, avec prise en charge des étiquettes contrôlées par les émotions

OpenRouter : interface unifiée pour l'intégration de plusieurs LLM, interface libre pour les grands modèles

RynnRCP - Premier protocole de contexte robotique open source de l'Institut Ali Dharma

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles