[이전] 핫 브라우저 자동화 인텔리전스를 처음부터 분해하고, 4단계로 자율 의사 결정 에이전트를 설계하는 방법 배우기

AI 실습 튜토리얼1 년 전 게시 됨 AI 공유 서클

41.5K 00

이전에는 우리가 개발한 대부분의 인텔리전스가 고정된 워크플로 모드에 있었고, 아래 프레임워크를 따르는 인텔리전스는 극소수에 불과했습니다.자기 결정노래로 응답자기 주도적인 도구 사용인텔리전스.

이틀 전, 브라우저를 사용하여 간단한 작업을 자동화하는 오픈 소스 에이전트인브라우저 사용.

위의 시연에서는 '페리 코드'를 자동으로 검색하여 제 블로그를 열었습니다.브라우저 사용 깃허브에서 별 1.5개를 받은 오픈 소스 에이전트이며, 명령어 하나로 로컬에 설치할 수 있어 문턱이 매우 낮습니다.

지난번에 이 글을 공유한 이후로 항상 분해해서 어떻게 구현되는지 확인하고 싶은 직업병이 생겨서 오늘의 포스팅을 준비했습니다.브라우저 사용 위 첫 번째 다이어그램에서 에이전트의 네 가지 모듈인 메모리, 계획, 도구 및 작업은 소스 파일 prompts.py의 130줄에 있는 단일 프롬프트로 완성됩니다.

프롬프트가 다소 길지만 위의 네 가지 모듈을 따라 세분화하면 매우 명확하고 간단하므로 걱정하지 마세요.

위의 프롬프트는 네 가지 모듈을 정의하므로 한 번에 하나씩 살펴 보겠습니다.

메모리 - 완료된 작업과 다음에 수행할 작업을 기록합니다.

"memory": "Description of what has been done and what you need to remember until the end of the task",

위의 '오픈 블로그' 사례의 실행을 문서화했는데, 메모리에서 실제 체스트넛을 확인할 수 있습니다.

'memory': "Baidu is open, ready to search for '渡码'."

계획)- 현재 페이지(웹 페이지)를 기준으로 이전 실행의 성공 여부를 판단하고 다음에 실행해야 할 작업을 생성합니다.

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not","next_goal": "What needs to be done with the next actions"

여기에는 두 부분이 있는데, 첫 번째 단계는 평가_이전_목표로 이전 작업이 성공했는지 여부를 결정하며, 이전 작업이 무엇이었는지는암기이것이 첫 번째 그림에서 메모리가 계획을 가리키는 점선으로 표시된 이유를 설명합니다.

이전 작업 상태에 따라 다음 작업의 계획이 결정되며, 이전 작업이 실패하면 재시도하고 성공하면 새 작업을 계획합니다.
실제 밤입니다:

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',

'next_goal': "Input '渡码' into the search box and submit the search."

도구- 브라우저 사용은 웹 페이지를 조작하는 데 사용할 수 있는 15가지 도구를 정의합니다.

도구의 정의는 큰 모델 선택을 위한 큐워드에 배치됩니다. 각 도구에는 특정 작업을 완료하기 위한 해당 코드가 있습니다.

액션- 계획에 기반한 일련의 구체적인 작업을 생성하는 것은 직접적인 밤나무입니다:

'action': [{'input_text': {'index': 12, 'text': '渡码'}}, {'click_element': {'index': 13}}]

첫 번째 단계는 페이지 요소의 레이블이 12(검색 상자)인 곳에 '페리 코드'를 입력하는 것이고, 두 번째 단계는 페이지 요소의 레이블이 13(검색 버튼)인 곳을 클릭하여 검색을 완료하는 것입니다.

공교롭게도 브라우저 사용의 모든 작업은 도구에서 이루어집니다.

이 마커의 출처가 궁금하신 분도 계실 것입니다.

브라우저 사용은 페이지의 HTML 코드를 분석하고 페이지의 구성 요소(요소)를 식별한 다음 각 구성 요소에 태그를 할당합니다. [转]从零拆解一款火爆的浏览器自动化智能体，4步学会设计自主决策Agent