LangGraph CUA : LangGraph-based AI Intelligence for Controlling Computer Operations (Intelligence IA basée sur le LangGraph pour le contrôle des opérations informatiques)

Introduction générale

LangGraph CUA est un projet open source développé par l'équipe LangChain. Il est basé sur le cadre LangGraph, qui permet aux développeurs d'utiliser Python pour construire des intelligences artificielles capables de faire fonctionner directement des ordinateurs. Au cœur de cet outil se trouve le Computer Use Agent (CUA), qui simule le comportement humain sur un ordinateur, comme cliquer, taper du texte ou naviguer sur le web. Il prend en charge les fonctions de mémoire, la collaboration homme-ordinateur et la sortie en temps réel, ce qui le rend adapté à l'automatisation des tâches répétitives ou au développement d'assistants intelligents. Le code du projet est ouvert aux développeurs qui peuvent le télécharger, le modifier et l'utiliser librement, ce qui le rend particulièrement adapté aux passionnés de technologie qui s'intéressent à l'automatisation de l'IA.

 

Liste des fonctions

  • Prend en charge le contrôle par l'IA d'opérations informatiques via le texte et la voix, telles que l'ouverture d'un logiciel, la saisie d'un texte ou le clic sur un bouton.
  • Les fonctions de mémoire à court et à long terme permettent de se souvenir des opérations précédentes et du contenu du dialogue.
  • Le mode de collaboration homme-ordinateur intégré permet à l'utilisateur d'intervenir et d'ajuster le comportement de l'IA à tout moment.
  • La sortie en streaming en temps réel permet d'afficher le processus d'opération étape par étape.
  • Intégration avec Scrapybara pour exécuter des agents d'intelligence artificielle sur des machines virtuelles et accéder à des pages web.
  • Permet aux développeurs de personnaliser les outils et les configurations pour obtenir des fonctionnalités flexibles et étendues.

 

Utiliser l'aide

LangGraph CUA n'est pas compliqué à installer et à utiliser, mais nécessite un environnement Python de base et une configuration de l'API. Voici les étapes détaillées pour vous aider à démarrer.

Processus d'installation

  1. Préparation de l'environnement
    Assurez-vous que votre ordinateur dispose de Python 3.8 ou plus. Ceci peut être vérifié avec la commande :
python --version

Si ce n'est pas le cas, téléchargez et installez le logiciel à partir de https://www.python.org.

  1. projet de clonage
    Téléchargez le code localement en tapant la commande suivante dans le terminal :
git clone https://github.com/langchain-ai/langgraph-cua-py.git

Une fois le téléchargement terminé, allez dans le dossier du projet :

cd langgraph-cua-py
  1. Installation des dépendances
    Le projet nécessite des bibliothèques Python, qui sont installées à l'aide de cette commande :
pip install -r requirements.txt

Si vous rencontrez des problèmes avec les autorisations, vous pouvez ajouter --user: :

pip install -r requirements.txt --user
  1. Configuration des clés API
    LangGraph CUA a besoin de clés API pour OpenAI et Scrapybara. Il faut d'abord créer un compte pour obtenir la clé, puis définir les variables d'environnement dans le terminal :
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>

l'interchangeabilité <你的OpenAI密钥> répondre en chantant <你的Scrapybara密钥> Les utilisateurs de Windows peuvent utiliser set remplacer export.

  1. Vérifier l'installation
    Exécutez un test simple pour vous assurer que l'environnement est correct. Allez dans le répertoire du projet et exécutez-le :
python -m langgraph_cua

Si aucune erreur n'est signalée, l'installation a réussi.

Comment utiliser les principales fonctionnalités

Au cœur de l'AUC LangGraph se trouve la création d'un agent d'intelligence artificielle pour faire fonctionner l'ordinateur. Voici comment cela fonctionne.

Création d'un agent d'intelligence artificielle

Importer et configurer l'agent dans un fichier Python, par exemple :

from langgraph_cua import create_cua
cua_graph = create_cua()

Cela génère un agent AI par défaut. Vous pouvez ajouter des paramètres si vous souhaitez utiliser une instance de VM spécifique :

cua_graph = create_cua(auth_state_id="你的认证ID")

Utiliser l'ordinateur

L'agent peut contrôler l'ordinateur à l'aide de commandes. Par exemple, il peut lui demander d'ouvrir un navigateur :

cua_graph.invoke({"command": "open browser"})

Ou saisissez du texte :

cua_graph.invoke({"command": "type", "text": "你好,世界"})

Ces commandes sont exécutées directement sur l'ordinateur.

Utilisation de la fonction mémoire

L'agent se souvient des actions précédentes. Par exemple, qu'il ouvre d'abord le Bloc-notes :

cua_graph.invoke({"command": "open notepad"})

Saisissez ensuite le contenu :

cua_graph.invoke({"command": "type", "text": "这是测试"})

La prochaine fois qu'il sera appelé, il saura que le bloc-notes est ouvert et poursuivra l'opération directement.

collaboration homme-machine

Si vous souhaitez l'ajuster manuellement, vous pouvez activer le mode IHM. Ajouter des paramètres en cours d'exécution :

cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)

À ce stade de l'exécution, le programme se met en pause et attend que vous confirmiez ou modifiiez les coordonnées.

sortie en temps réel

Si vous souhaitez voir chaque étape de l'opération, vous pouvez utiliser la sortie en continu :

for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)

Le processus de recherche s'affichera étape par étape.

Fonction en vedette Fonctionnement

Intégration de Scrapybara

Scrapybara permet à l'agent de fonctionner sur une machine virtuelle, adaptée à la gestion des tâches web. Configurez-le pour vous assurer que la clé API est correcte, puis exécutez-le :

cua_graph.invoke({"command": "browse", "url": "https://example.com"})

L'agent ouvrira la page web et l'exploitera dans la machine virtuelle.

Outils de personnalisation

Vous pouvez ajouter vos propres outils. Par exemple, définissez un outil de calculatrice :

def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])

Appelez ensuite :

cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})

Le résultat sera 8.

Ces étapes et ce code vous permettront de vous familiariser rapidement avec l'AUC LangGraph, que ce soit pour des tâches simples ou des personnalisations complexes.

 

scénario d'application

  1. travail de bureau automatisé
    Utilisez l'agent d'intelligence artificielle pour traiter des fichiers par lots, comme l'ouverture d'Excel, la saisie de données et leur enregistrement, afin d'éliminer les opérations répétitives.
  2. Capture de données sur le web
    Permettre aux agents de visiter des sites web et d'en extraire des informations, par exemple en collectant automatiquement des titres d'actualité ou des données sur les prix.
  3. Développement d'un assistant intelligent
    Créez un assistant qui écoute les commandes vocales, telles que "ouvrir le courrier électronique" ou "rechercher des documents", et les exécute directement.
  4. Éducation et formation
    Démontrer comment l'IA peut simuler l'utilisation d'un ordinateur par un humain pendant l'enseignement afin d'aider les étudiants à comprendre les principes de l'automatisation.

 

QA

  1. Avez-vous besoin de connaissances de base en programmation ?
    Des connaissances de base en Python sont nécessaires, comme la capacité d'utiliser la ligne de commande et d'écrire du code simple. Si vous ne savez pas comment faire, vous pouvez commencer par apprendre la syntaxe de base.
  2. Que faire si je n'ai pas de clé API ?
    Rendez-vous sur les sites officiels d'OpenAI (https://openai.com) et de Scrapybara pour créer un compte et demander une clé. Les crédits gratuits pouvant être limités, nous vous recommandons de consulter les tarifs.
  3. Puis-je ne pas utiliser de machine virtuelle ?
    Oui, mais une machine virtuelle avec Scrapybara est plus sûre, car elle isole l'environnement d'exploitation et évite d'avoir un impact sur l'ordinateur local.
  4. Prend-il en charge les commandes en chinois ?
    Soutien. Si le modèle d'IA comprend le chinois, il est tout aussi efficace de taper des commandes en chinois.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...