[Передача] Разборка интеллекта автоматизации горячего браузера с нуля, научитесь проектировать автономные агенты для принятия решений за 4 шага

Практические уроки по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

43.5K 00

Ранее большинство интеллектов, которые мы разрабатывали, работали в режиме фиксированного рабочего процесса, и лишь немногие из них следовали приведенной ниже схеме, развивая интеллекты ссамоопределениеответить пениемСамостоятельное использование инструментовИнтеллигенция.

Два дня назад я рассказал об агенте с открытым исходным кодом, который автоматизирует выполнение простых задач с помощью браузера.использование браузера.

Как показано выше, он автоматически выполнил поиск "кода парома" и открыл мой блог.использование браузера Это агент с открытым исходным кодом, имеющий 1,5w звезд на GitHub, и может быть установлен локально с помощью одной команды, что является очень низким порогом.

С тех пор как я в последний раз рассказывал об этом, у меня появилась профессиональная привычка постоянно разбирать его, чтобы посмотреть, как это делается, так что вот сегодняшний пост.использование браузера Четыре модуля Агента - Память, Планирование, Инструменты и Действие - на первой диаграмме выше завершаются единственной подсказкой, которая находится в исходном файле prompts.py, строка 130.

Подсказки немного длинноваты, но не волнуйтесь, все очень просто и понятно, если следовать четырем модулям, приведенным выше, и разбить их на части.

В подсказке выше определены четыре модуля, поэтому давайте рассмотрим их по очереди.

Память - Запишите задачи, которые были выполнены, и те, которые должны быть выполнены в следующий раз.

"memory": "Description of what has been done and what you need to remember until the end of the task",

Выше я описал исполнение дела об "открытом блоге", и вы можете увидеть, как Мемори на самом деле каштан

'memory': "Baidu is open, ready to search for '渡码'."

Планирование)- Определите, было ли предыдущее выполнение успешным или нет, основываясь на текущей странице (веб-странице), и сгенерируйте задачи, которые должны быть выполнены следующими.

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not","next_goal": "What needs to be done with the next actions"

Здесь есть две части, первый шаг - evaluation_previous_goal, который определяет, была ли предыдущая задача успешной или нет, о том, какой была предыдущая задача, можно узнать взапоминаниеЭто объясняет, почему на первом рисунке пунктирная линия Memory указывает на Planning.

Состояние предыдущей задачи определяет планирование следующей задачи, повторное выполнение которой не удалось, а в случае успеха - планирование новой задачи.
Настоящие каштаны:

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',

'next_goal': "Input '渡码' into the search box and submit the search."

Инструменты- browser-use определяет 15 инструментов, которые можно использовать для работы с веб-страницей.

Определения инструментов помещены в слова подсказки для выбора большой модели. Каждый инструмент имеет соответствующий код для выполнения конкретной задачи.

Действие- Создание серии конкретных действий на основе планирования - это прямо каштан:

'action': [{'input_text': {'index': 12, 'text': '渡码'}}, {'click_element': {'index': 13}}]

В этом примере есть два действия: первое - ввести "код парома" в поле поиска, где элемент страницы обозначен как 12; второе - нажать на элемент страницы, где обозначен как 13 (кнопка поиска), чтобы завершить поиск.

По случайному совпадению, все действия в браузере выполняются с помощью Tools.

Некоторые из вас могут задаться вопросом, откуда берутся эти маркеры.

Браузер анализирует HTML-код страницы, определяет компоненты (элементы) страницы и присваивает каждому компоненту свой тег. [转]从零拆解一款火爆的浏览器自动化智能体，4步学会设计自主决策Agent

На этой странице вы можете увидеть красочно отмеченные коробки и надписи на них, которые идентифицируются по использованию браузера.

В конечном итоге эта информация преобразуется в '1[:]'.<a name="tj_settingicon">устанавливать</a>' Текст в таком формате, добавленный к сигнальному слову, поступает в большую модель

Таким образом, большая модель знает, как выглядит страница, и может планировать задачу.

Я считаю, что этой идее стоит поучиться, и именно благодаря мощному пониманию, которым обладают большие модели, они могут заменить сложную страницу всего несколькими строчками текста, значительно упростив, казалось бы, сложную вещь.

В browser-use есть и другие детали реализации, которые стоит изучить, например, тот факт, что некоторые действия могут привести к изменению страницы после выполнения, что приведет к прерыванию задачи и повторной генерации нового действия.

Другой пример - поддержка визуальных макромоделей: загрузка скриншота всей веб-страницы позволяет макромоделям лучше понять страницу и тем самым лучше спланировать задачу. Заинтересованные лица могут загрузить исходный код, чтобы продолжить свои исследования.

Кроме того, в последнее время в интеллектах наметилась новая тенденция - активное обучение. Опираясь на эту способность, интеллект Genius превзошел лучших человеческих игроков и другие модели ИИ в классической игре Pong, имея всего 10% данных и 2 часа обучения.

У меня также есть глубокое понимание создания интеллектуальных тел на работе. Поскольку работа - это частный сценарий, интеллектуальное тело не понимает ваш бизнес, поэтому оно не может сделать правильное планирование для вас, и именно тогда необходима способность интеллектуального тела к автономному обучению.

Практические уроки по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.