[Transfert] Démontage d'une intelligence d'automatisation de navigateur chaud à partir de zéro, apprendre à concevoir des agents décisionnels autonomes en 4 étapes

Auparavant, la plupart des intelligences que nous avons développées étaient dans un mode de travail fixe, et très peu d'entre elles suivaient le cadre ci-dessous, développant des intelligences avec un processus d'apprentissage.autodéterminationrépondre en chantantUtilisation autonome des outilsL'Intelligentsia.

 

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

 

Il y a deux jours, j'ai partagé avec vous un agent open source qui automatise des tâches simples à l'aide d'un navigateur - l'agentutilisation du navigateur.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

La démonstration ci-dessus montre qu'il a automatiquement recherché "code ferry" et ouvert mon blog.utilisation du navigateur C'est un agent open source avec 1,5w étoiles sur GitHub, et il peut être installé localement avec une seule commande, ce qui est un seuil très bas.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

 

Depuis la dernière fois que j'ai partagé cet article, j'ai toujours eu envie de le démonter pour voir comment il était réalisé, alors voici l'article d'aujourd'hui.utilisation du navigateur Les quatre modules de l'agent - Mémoire, Planification, Outils et Action - dans le premier diagramme ci-dessus sont complétés par une seule invite, qui se trouve dans le fichier source prompts.py, ligne 130.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

 

Les questions sont un peu longues, mais ne vous inquiétez pas, il est très clair et simple de suivre les quatre modules ci-dessus et de les décomposer.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

L'invite ci-dessus définit les quatre modules, alors prenons-les un par un.

 

Mémoire - Enregistrez les tâches qui ont été accomplies et celles qui doivent l'être ensuite.

"memory": "Description of what has been done and what you need to remember until the end of the task",

J'ai documenté l'exécution de l'affaire du "blog ouvert" ci-dessus, et vous pouvez voir le marronnier actuel de Memory.

'memory': "Baidu is open, ready to search for '渡码'."

Planification)- Déterminer si l'exécution précédente a réussi ou non en fonction de la page actuelle (page web) et générer les tâches à exécuter ensuite.

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not","next_goal": "What needs to be done with the next actions"

Il y a deux parties ici, la première étape est evaluation_previous_goal qui détermine si la tâche précédente a été réussie ou non, ce que la tâche précédente était peut être trouvé dans le fichiermémorisationCela explique pourquoi la ligne pointillée de la Mémoire pointe vers la Planification dans la première figure.

L'état de la tâche précédente détermine la planification de la tâche suivante, en réessayant si la tâche précédente échoue et en planifiant une nouvelle tâche si elle réussit.
De vraies châtaignes :

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',

'next_goal': "Input '渡码' into the search box and submit the search."

 

Outils- browser-use définit 15 outils qui peuvent être utilisés pour manipuler une page web.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

Les définitions des outils sont placées dans le mot-clé pour la sélection du grand modèle. Chaque outil possède un code correspondant à la réalisation d'une tâche spécifique.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

Action- Générer une série d'actions spécifiques basées sur la planification est une tâche directe :

'action': [{'input_text': {'index': 12, 'text': '渡码'}}, {'click_element': {'index': 13}}]

Dans cet exemple, il y a deux actions : la première consiste à saisir "code ferry" à l'endroit où l'élément de page est étiqueté 12 (la boîte de recherche) ; la seconde consiste à cliquer à l'endroit où l'élément de page est étiqueté 13 (le bouton de recherche) pour terminer la recherche.

Par coïncidence, toutes les actions liées à l'utilisation du navigateur sont effectuées à l'aide d'Outils.

Certains d'entre vous se demandent peut-être d'où viennent ces marqueurs.

Le navigateur analyse le code HTML d'une page, identifie les composants (éléments) de la page et attribue une balise à chaque composant. [转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

Sur cette page, vous pouvez voir les cases marquées en couleur et les marqueurs sur les cases, qui sont identifiés par l'utilisation du navigateur.

Ces informations sont ensuite converties en "1[ :]<a name="tj_settingicon">mettre en place</a>Le texte dans ce format, ajouté au mot de repère, est introduit dans le grand modèle.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

De cette manière, le grand modèle sait à quoi ressemble la page et peut ainsi planifier la tâche.

Je pense que cette idée mérite qu'on s'en inspire, et c'est précisément grâce à la compréhension puissante que les grands modèles ont qu'ils peuvent remplacer une page complexe par seulement quelques lignes de texte, simplifiant ainsi grandement une chose apparemment complexe.

browser-use comporte d'autres détails de mise en œuvre qui valent la peine d'être appris, comme le fait que certaines actions peuvent entraîner une modification de la page après leur exécution, ce qui interrompt la tâche et régénère une nouvelle action.

Un autre exemple est la prise en charge des macromodèles visuels : le téléchargement d'une capture d'écran de la page web entière permet aux macromodèles de mieux comprendre la page et donc de mieux planifier leur tâche. Les personnes intéressées peuvent télécharger le code source pour poursuivre leurs recherches.

En outre, une nouvelle tendance a été observée récemment dans le domaine des intelligences : l'apprentissage actif. En s'appuyant sur cette capacité, les intelligences Genius ont surpassé les meilleurs joueurs humains et d'autres modèles d'IA dans le jeu classique Pong en utilisant seulement 101 TP3T de données et 2 heures d'entraînement.

Comme le travail est un scénario privé, l'organisme intelligent ne comprend pas votre entreprise, il ne peut donc pas faire la bonne planification pour vous, et c'est à ce moment-là que la capacité de l'organisme intelligent à apprendre de manière autonome est nécessaire.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...