[이전] 핫 브라우저 자동화 인텔리전스를 처음부터 분해하고, 4단계로 자율 의사 결정 에이전트를 설계하는 방법 배우기

AI 실습 튜토리얼7개월 전에 게시 됨 AI 공유 서클
8.6K 00

이전에는 우리가 개발한 대부분의 인텔리전스가 고정된 워크플로 모드에 있었고, 아래 프레임워크를 따르는 인텔리전스는 극소수에 불과했습니다.자기 결정노래로 응답자기 주도적인 도구 사용인텔리전스.

 

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

 

이틀 전, 브라우저를 사용하여 간단한 작업을 자동화하는 오픈 소스 에이전트인브라우저 사용.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

위의 시연에서는 '페리 코드'를 자동으로 검색하여 제 블로그를 열었습니다.브라우저 사용 깃허브에서 별 1.5개를 받은 오픈 소스 에이전트이며, 명령어 하나로 로컬에 설치할 수 있어 문턱이 매우 낮습니다.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

 

지난번에 이 글을 공유한 이후로 항상 분해해서 어떻게 구현되는지 확인하고 싶은 직업병이 생겨서 오늘의 포스팅을 준비했습니다.브라우저 사용 위 첫 번째 다이어그램에서 에이전트의 네 가지 모듈인 메모리, 계획, 도구 및 작업은 소스 파일 prompts.py의 130줄에 있는 단일 프롬프트로 완성됩니다.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

 

프롬프트가 다소 길지만 위의 네 가지 모듈을 따라 세분화하면 매우 명확하고 간단하므로 걱정하지 마세요.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

위의 프롬프트는 네 가지 모듈을 정의하므로 한 번에 하나씩 살펴 보겠습니다.

 

메모리 - 완료된 작업과 다음에 수행할 작업을 기록합니다.

"memory": "Description of what has been done and what you need to remember until the end of the task",

위의 '오픈 블로그' 사례의 실행을 문서화했는데, 메모리에서 실제 체스트넛을 확인할 수 있습니다.

'memory': "Baidu is open, ready to search for '渡码'."

계획)- 현재 페이지(웹 페이지)를 기준으로 이전 실행의 성공 여부를 판단하고 다음에 실행해야 할 작업을 생성합니다.

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not","next_goal": "What needs to be done with the next actions"

여기에는 두 부분이 있는데, 첫 번째 단계는 평가_이전_목표로 이전 작업이 성공했는지 여부를 결정하며, 이전 작업이 무엇이었는지는암기이것이 첫 번째 그림에서 메모리가 계획을 가리키는 점선으로 표시된 이유를 설명합니다.

이전 작업 상태에 따라 다음 작업의 계획이 결정되며, 이전 작업이 실패하면 재시도하고 성공하면 새 작업을 계획합니다.
실제 밤입니다:

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',

'next_goal': "Input '渡码' into the search box and submit the search."

 

도구- 브라우저 사용은 웹 페이지를 조작하는 데 사용할 수 있는 15가지 도구를 정의합니다.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

도구의 정의는 큰 모델 선택을 위한 큐워드에 배치됩니다. 각 도구에는 특정 작업을 완료하기 위한 해당 코드가 있습니다.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

액션- 계획에 기반한 일련의 구체적인 작업을 생성하는 것은 직접적인 밤나무입니다:

'action': [{'input_text': {'index': 12, 'text': '渡码'}}, {'click_element': {'index': 13}}]

첫 번째 단계는 페이지 요소의 레이블이 12(검색 상자)인 곳에 '페리 코드'를 입력하는 것이고, 두 번째 단계는 페이지 요소의 레이블이 13(검색 버튼)인 곳을 클릭하여 검색을 완료하는 것입니다.

공교롭게도 브라우저 사용의 모든 작업은 도구에서 이루어집니다.

이 마커의 출처가 궁금하신 분도 계실 것입니다.

브라우저 사용은 페이지의 HTML 코드를 분석하고 페이지의 구성 요소(요소)를 식별한 다음 각 구성 요소에 태그를 할당합니다. [转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

이 페이지에서 다채로운 색상의 표시된 상자와 상자의 마커를 볼 수 있으며, 이는 브라우저별로 식별됩니다.

결국 이 정보는 '1[:]'로 변환됩니다.<a name="tj_settingicon">설정</a>' 이 형식의 텍스트는 큐 단어에 추가되어 큰 모델에 공급됩니다.

[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent

이렇게 하면 큰 모델이 페이지의 모양을 파악하여 작업을 계획할 수 있습니다.

큰 모델은 복잡한 페이지를 단 몇 줄의 텍스트로 대체하여 복잡해 보이는 것을 크게 단순화할 수 있는 이해의 힘을 가지고 있기 때문에 이 아이디어는 배울 가치가 있다고 생각합니다.

브라우저 사용에는 일부 액션이 실행된 후 페이지가 변경되어 작업이 중단되고 새 액션이 다시 생성될 수 있다는 사실과 같이 알아두어야 할 몇 가지 구현 세부 사항이 있습니다.

또 다른 예는 시각적 매크로 모델을 지원하는 것으로, 전체 웹페이지의 스크린샷을 업로드하면 매크로 모델이 페이지를 더 잘 이해하여 작업을 더 잘 계획할 수 있습니다. 관심 있는 사람은 소스 코드를 다운로드하여 연구를 계속할 수 있습니다.

또한 최근에는 능동적 학습이라는 새로운 인텔리전스 트렌드가 등장했습니다. 이 기능을 활용하여 Genius 인텔리전스는 10%의 데이터와 2시간의 훈련만으로 고전 게임인 Pong에서 최고의 인간 플레이어와 다른 AI 모델보다 뛰어난 성능을 보였습니다.

또한 직장에서 지능체를 구축하는 것에 대해 깊이 이해하고 있습니다. 업무가 사적인 시나리오이기 때문에 지능체가 사용자의 비즈니스를 이해하지 못하기 때문에 올바른 계획을 세울 수 없으며, 이때 지능체가 자율적으로 학습하는 능력이 필요합니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...