[Transferir] Desmontar una inteligencia de automatización de navegador caliente desde cero, aprender a diseñar agente autónomo de toma de decisiones en 4 pasos.

Tutoriales prácticos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

43.4K 00

Anteriormente, la mayoría de las inteligencias que desarrollábamos estaban en un modo de flujo de trabajo fijo, y muy pocas de ellas seguían el siguiente marco, desarrollando inteligencias con unautodeterminaciónresponder cantandoUso autónomo de las herramientasLa Intelligentsia.

Hace dos días, compartí un Agente de código abierto que automatiza tareas sencillas utilizando un navegador - elnavegador-uso.

En la demostración anterior, buscó automáticamente "código de transbordador" y abrió mi blog.navegador-uso Es un agente de código abierto con 1,5w estrellas en GitHub, y puede instalarse localmente con un solo comando, lo que supone un umbral muy bajo.

Desde la última vez que lo compartí, he tenido el gaje del oficio de querer desmontarlo siempre para ver cómo se consigue, así que aquí va el post de hoy.navegador-uso Los cuatro módulos del Agente - Memoria, Planificación, Herramientas y Acción - en el primer diagrama de arriba se completan con un único prompt, que se encuentra en el archivo fuente prompts.py, línea 130.

Las indicaciones son un poco largas, pero no te preocupes, es muy claro y sencillo seguir los cuatro módulos anteriores y desglosarlos.

En la pregunta anterior se definen los cuatro módulos, así que vamos a examinarlos uno por uno.

Memoria - Registre las tareas que se han completado y las que se van a realizar a continuación.

"memory": "Description of what has been done and what you need to remember until the end of the task",

Más arriba he documentado la ejecución del caso "blog abierto", y puedes ver la castaña real de Memory

'memory': "Baidu is open, ready to search for '渡码'."

Planificación)- Determina si la ejecución anterior tuvo éxito o no en función de la página actual (página web) y genera las tareas que deben ejecutarse a continuación.

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not","next_goal": "What needs to be done with the next actions"

Hay dos partes aquí, el primer paso es evaluation_previous_goal que determina si la tarea anterior tuvo éxito o no, lo que la tarea anterior se puede encontrar en elmemorizaciónEsto explica por qué la Memoria tiene una línea de puntos que apunta a la Planificación en la primera figura.

El estado de la tarea anterior determina la planificación de la siguiente tarea, reintentando si la tarea anterior falla y planificando una nueva tarea si tiene éxito.
Castañas de verdad:

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',

'next_goal': "Input '渡码' into the search box and submit the search."

Herramientas- browser-use define 15 herramientas que pueden utilizarse para manipular una página web.

Las definiciones de las herramientas se colocan en la palabra clave para la selección de modelos grandes. Cada herramienta tiene un código correspondiente para completar una tarea específica.

Acción- Generar una serie de acciones específicas basadas en la Planificación es una castaña directa:

'action': [{'input_text': {'index': 12, 'text': '渡码'}}, {'click_element': {'index': 13}}]

En este ejemplo, hay dos acciones: el primer paso es introducir "código de transbordador" en el elemento de página 12 (el cuadro de búsqueda); el segundo paso es hacer clic en el elemento de página 13 (el botón de búsqueda) para completar la búsqueda.

Casualmente, todas las acciones en el uso del navegador se hacen con Herramientas.

Algunos de ustedes se preguntarán de dónde proceden estos marcadores.

El navegador analiza el código HTML de una página, identifica los componentes (elementos) de la página y asigna una etiqueta a cada componente. [转]从零拆解一款火爆的浏览器自动化智能体，4步学会设计自主决策Agent

En esta página puede ver las casillas marcadas con colores y las etiquetas de las casillas, que se reconocen por el uso del navegador.

Al final, esta información se convierte en "1[:]".<a name="tj_settingicon">establecer</a>Texto en este formato, añadido a la palabra clave, introducido en el modelo grande.

De este modo, el gran modelo sabe cómo es la página para poder planificar la tarea.

Creo que merece la pena aprender de esta idea, y es precisamente gracias a la poderosa comprensión que tienen los grandes modelos que pueden sustituir una página compleja por unas pocas líneas de texto, simplificando enormemente algo aparentemente complejo.

browser-use tiene algunos otros detalles de implementación que vale la pena aprender, como el hecho de que algunas Acciones pueden hacer que la página cambie después de la ejecución, lo que interrumpirá la tarea y regenerará una nueva Acción.

Otro ejemplo es el soporte para macromodelos visuales, subir una captura de pantalla de toda la página web permite a los macromodelos entender mejor la página y así planificar mejor la tarea. Los interesados pueden descargar el código fuente para seguir investigando.

Además, recientemente se ha observado una nueva tendencia en las inteligencias: el aprendizaje activo. Basándose en esta capacidad, las inteligencias Genius superaron a los mejores jugadores humanos y a otros modelos de IA en el clásico juego Pong con sólo 10% de datos y 2 horas de entrenamiento.

Como el trabajo es un escenario privado, el cuerpo inteligente no entiende su negocio, por lo que no puede hacer la Planificación correcta para usted, y es entonces cuando es necesaria la capacidad del cuerpo inteligente para aprender de forma autónoma.