일반 소개
에이전트 S는 Simular AI에서 개발한 오픈 소스 프레임워크로, 그래픽 사용자 인터페이스(GUI)를 통해 인공지능이 인간처럼 컴퓨터를 조작할 수 있게 해줍니다. 다중 모드 매크로 언어 모델과 경험적 학습 기법을 사용하여 웹 검색, 문서 편집, 소프트웨어 사용과 같은 작업을 수행합니다. 이 프로젝트는 GitHub에서 오픈 소스이며 활발한 개발자 커뮤니티를 보유하고 있습니다. 에이전트 S1의 논문은 2025년 ICLR에서 채택되었으며, 에이전트 S2는 2025년 3월에 출시되어 OpenAI 및 인류학 macOS, Windows, Linux를 지원합니다. macOS, Windows 및 Linux를 지원하며 자동화된 사무실, 소프트웨어 테스트 및 AI 연구에 적합합니다.

기능 목록
- 그래픽 사용자 인터페이스(GUI) 조작컴퓨터 소프트웨어와 상호 작용하는 아날로그 마우스 및 키보드.
- 작업 및 계획복잡한 작업을 작은 단계로 나누고 실행을 자동화하세요.
- 경험을 통한 학습과거 작업에서 학습하여 효율성을 높입니다.
- 크로스 플랫폼 지원macOS에서 사용 가능(원클릭 설치 패키지), Windows 및 Linux.
- 멀티 모달 입력화면 이미지와 인터페이스 요소를 결합하여 정밀하게 조작할 수 있습니다.
- 오픈 소스 사용자 지정소스 코드와 문서가 제공되며 개발자가 자유롭게 수정할 수 있습니다.
- 지식창고 업데이트인텔리전스 향상을 위해 런타임에 경험 데이터를 지속적으로 업데이트합니다.
도움말 사용
에이전트 S는 개발자를 위한 오픈 소스 도구로, 설치 및 사용하려면 특정 프로그래밍 기반이 필요합니다. 다음은 사용자가 빠르게 시작할 수 있도록 도와주는 자세한 단계와 기능 지침입니다.
설치 프로세스
- 환경 준비하기
- Python 3.9부터 3.12까지 설치합니다.
- 코드 다운로드를 위해 Git을 설치합니다.
- 선택 사항: 테스트 또는 환경 격리를 위해 가상 머신(예: VMware)을 준비합니다.
- 코드 다운로드
- 터미널을 열고 실행합니다:
git clone https://github.com/simular-ai/Agent-S.git
- 프로젝트 카탈로그로 이동합니다:
cd Agent-S
- 터미널을 열고 실행합니다:
- 종속성 설치
- 가상 환경 만들기(권장):
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows
- 핵심 라이브러리를 설치합니다:
pip install gui-agents
- 환경 변수 설정(예: API 키):
export OPENAI_API_KEY=<你的密钥> export ANTHROPIC_API_KEY=<你的密钥> export HF_TOKEN=<你的Hugging Face密钥>
- 가상 환경 만들기(권장):
- 에이전트 S 시작
- 에이전트 S1 또는 S2를 실행합니다:
agent_s1 # 运行 Agent S1 agent_s2 # 运行 Agent S2
- 실행이 완료되면 작업을 입력하여 시작하세요.
- 에이전트 S1 또는 S2를 실행합니다:
주요 기능
그래픽 사용자 인터페이스(GUI) 조작
- 기능 설명스크린샷과 인터페이스 인식을 통해 사람의 조작을 시뮬레이션합니다.
- 절차::
- 움직여야 합니다.
agent_s2
. - "메모장을 열고 'hello'를 입력합니다."라는 작업을 입력합니다.
- 상담원 S2 메모장 아이콘을 찾아 클릭하여 연 다음 텍스트를 입력합니다.
- 언제든지 Ctrl+C를 눌러 중지할 수 있습니다.
- 움직여야 합니다.
작업 및 계획
- 기능 설명복잡한 작업을 작은 단계로 나누고 점진적으로 완료하세요.
- 절차::
- "친구에게 이메일 보내기"를 입력합니다.
- 에이전트 S2는 메일 소프트웨어를 열고 새 메시지를 만든 다음 내용을 입력하고 보내기를 클릭하면 자동으로 이 작업을 수행합니다.
- 사용자는 터미널에서 각 단계의 로그를 볼 수 있습니다.
경험을 통한 학습
- 기능 설명작업 진행 과정을 기록하고 후속 작업을 최적화하세요.
- 절차::
- 퀘스트를 완료하면 경험치는 다음 위치에 저장됩니다.
gui_agents/kb
폴더. - 비슷한 작업을 다시 실행하면 효율성이 향상됩니다.
- 개발자는 학습 콘텐츠에 대한 지식창고 문서를 확인할 수 있습니다.
- 퀘스트를 완료하면 경험치는 다음 위치에 저장됩니다.
주요 기능 작동
크로스 플랫폼 지원
- 기능 설명세 가지 주요 운영 체제 지원.
- 절차::
- Windows를 사용하려면 다음을 설치해야 합니다.
pywin32
노래로 응답pywinauto
. - macOS 필수
pyobjc
사용pip install pyobjc
설치. - Linux 확인
pyautogui
호환성을 위해 권한을 조정해야 할 수 있습니다.
- Windows를 사용하려면 다음을 설치해야 합니다.
멀티 모달 입력
- 기능 설명이미지와 인터페이스 데이터를 결합하여 작업 정확도를 높입니다.
- 절차::
- "브라우저에서 '날씨'를 검색하세요."라고 입력합니다.
- 에이전트 S2가 화면을 분석하여 브라우저 창을 찾은 후 검색어를 입력합니다.
- 결과는 자동으로 표시됩니다.
기술 자료 다운로드
- 기능 설명상담원 S2는 사전 학습된 지식창고를 사용하며 오프라인 작업을 지원합니다.
- 절차::
- 처음 시작할 때 GitHub 릴리즈에서 지식창고를 자동으로 다운로드합니다.
- 수동 다운로드 예시:
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
- 지식창고 경로는
kb_data
폴더.
고급 구성
통합 퍼플렉시카 검색
- 기능 설명에이전트 S의 웹 지식 검색 기능 강화.
- 절차::
- Docker Desktop을 설치하고 시작합니다.
- 퍼플렉시카를 다운로드하세요:
cd Perplexica git submodule update --init
- 이름 바꾸기
sample.config.toml
때문에config.toml
API 키를 잘 모르는 경우 API 키를 입력하세요. - 서비스를 시작합니다:
docker compose up -d
- 퍼플렉시카 URL을 설정합니다:
export PERPLEXICA_URL=http://localhost:端口/api/search
사용자 지정 모델
- 기능 설명여러 대형 모델 및 사용자 지정 엔드포인트 지원.
- 절차::
- 활용 Claude 모델:
agent_s2 --model claude-3-7-sonnet-20250219
- 포옹하는 얼굴 엔드포인트를 사용합니다:
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
- 활용 Claude 모델:
주의
- 처음 실행하려면 종속성 및 지식창고를 다운로드하려면 인터넷에 연결해야 합니다.
- Linux 사용자는 Conda 환경을 피하십시오.
pyatspi
. - 자세한 문서는 다음 링크에서 확인할 수 있습니다.
README.md
노래로 응답models.md
가운데.
애플리케이션 시나리오
- 사무 자동화
에이전트 S는 자동으로 양식을 작성하고 이메일을 전송하여 반복적인 작업을 줄입니다. - 소프트웨어 테스트
사용자 작업을 시뮬레이션하고 다양한 시스템에서 소프트웨어의 안정성을 테스트하세요. - AI 연구
연구자들은 이 기술을 사용하여 지능적인 신체와 컴퓨터의 상호 작용에 대한 기술적 원리를 탐구합니다.
QA
- 에이전트 S2와 S1의 차이점은 무엇인가요?
S2는 S1의 업그레이드 버전으로, 성능이 향상되고 OSWorld 및 AndroidWorld와 같은 더 많은 벤치마크를 지원합니다. - 항상 연결 상태를 유지해야 하나요?
지식창고를 처음 설치하고 다운로드하려면 인터넷 액세스가 필요하며, 그 이후에는 오프라인에서 실행할 수 있습니다. - 커뮤니티 지원팀에 연락하려면 어떻게 해야 하나요?
Discord 서버(https://discord.gg/E2XfsK9fPV)에 참여하거나 GitHub에서 이슈를 제출하세요.
에이전트 S2 기술 세부 사항 발표: 범용 컴퓨터 운영을 위한 조합형 AI 프레임워크
인간처럼 컴퓨터를 능숙하게 사용할 수 있는 지능을 구축하는 것은 범용 인공 지능(AGI)으로 가는 길의 핵심 과제 중 하나입니다. 이러한 작업에는 개방형 숫자 작업 수행부터 크고 노이즈가 많으며 매우 동적인 문제 공간이 있는 그래픽 사용자 인터페이스(GUI)를 통해 익숙하지 않은 애플리케이션을 탐색하는 것까지 다양한 시나리오가 포함됩니다. 최근 Agent S2
모듈식 프레임워크를 제안하고 여러 컴퓨터 사용 벤치마크에서 선도적인 성능을 달성한 이 연구의 기술 논문이 공식적으로 발표되었습니다.
Agent S2
이 릴리스와 관련된 코드는 이전에 오픈 소스로 제공되었습니다. 이 릴리스에 대한 기술 문서( arXiv (Get)에서 시스템의 핵심 개념과 아키텍처 설계에 대해 자세히 살펴볼 수 있습니다. 이 시스템을 개발한 연구팀인 Simular AI는 이전에 비전문가 독자를 위한 소개 글도 게시한 바 있습니다.
에이전트 S2 개요: 통합 인텔리전트 설계
Agent S2
핵심 설계 철학은 복잡한 컴퓨터 운영 작업을 세분화하여 하나의 큰 모델에 의존하여 계획, 실행 및 화면 상호 작용 이해의 모든 작업을 수행하는 것이 아니라 이러한 책임을 일반 계획 모듈과 전문 실행/이해 모듈(전문가)에 할당하는 것입니다. 이 결합된 아키텍처는 높은 수준의 기획자, 낮은 수준의 실행자, 인터페이스 상호작용 전문가가 함께 일하는 인간 전문가 팀의 작업 방식을 모방하기 위한 것입니다.
에이전트 S2 아키텍처 다이어그램: 일반 플래너와 전문화된 기본 모듈의 결합.
Agent S2
주요 기능은 다음과 같습니다:
- 접지 혼합(MoG). 시각적, 텍스트 및 구조화된 정보 추출을 포함한 일련의 기본 전문가 모델을 사용하여 GUI 요소를 정확하게 찾습니다. 예를 들어 스프레드시트로 작업할 때는 구조화된 데이터에 초점을 맞추고, 버튼을 클릭할 때는 시각적 방향에 의존할 수 있습니다. 이 설계는 접지와 기획을 분리하여 문제의 복잡성을 효과적으로 줄이고 일반 추론 모델 및 특수 시각적 기반 모델에 대한 현재 교육 분포에 더 부합하도록 합니다.
- 사전 계층적 계획(PHP). 이 프레임워크는 사전 정의된 스크립트를 딱딱하게 따르는 것이 아니라 환경 피드백에 따라 계획을 동적으로 조정하고 개선할 수 있습니다. 이를 통해 인텔리전스는 예기치 않은 상황에 보다 유연하게 대응할 수 있습니다.
벤치마크 결과: 크로스 플랫폼 성능 리더
이 논문의 데이터에 따르면 Agent S2
널리 사용되는 OSWorld
벤치마크 테스트에서 새로운 성능 기록을 세웠습니다. OSWorld
주로 시뮬레이션된 운영 체제 환경에서 파일 관리, 소프트웨어 사용, 정보 검색과 같은 다양한 작업을 완료하는 AI 지능의 능력을 평가합니다.
OSWorld 벤치마크 성공률 비교.
또한. Agent S2
또한 다른 플랫폼에서도 일반화가 잘 이루어지고 있습니다:
- WindowsAgentArena. 이 벤치마크는 Windows 환경의 복잡한 상호 작용 작업에 초점을 맞춘 벤치마크입니다.
Agent S2
이 테스트의 성능은 이전 최고 오픈 결과(SOTA)에 비해 52.81 TP3T 향상되었습니다. - 안드로이드월드. 이 벤치마크는 Android 모바일 운영 체제에서 작업을 완료하는 능력을 측정합니다.
Agent S2
성능도 16.51 TP3T 향상으로 이전 SOTA 결과를 능가합니다.
OSWorld의 성공률 성과에 따르면 에이전트 S2는 이전 방식보다 뛰어난 성능을 발휘합니다.
윈도우 에이전트 아레나의 성공률 성능.
디자인 혁신: MoG와 PHP의 시너지 효과
기존의 많은 컴퓨터 지능이 실제로 직면하는 주요 과제는 인터페이스 요소에 대한 부정확한 이해(즉, '기본 접지' 문제)나 지나치게 엄격한 계획 실행 프로세스에서 비롯됩니다. Agent S2
이러한 문제는 두 가지 핵심 설계를 통해 해결됩니다:
- 혼합 기반 모델링(MoG). MoG 메커니즘은 현재 상호작용 요구사항에 따라 가장 적합한 전문가 모델에 작업을 지능적으로 라우팅할 수 있습니다. 예를 들어 스프레드시트 셀을 인식하고 조작하면 구조 분석에 기반한 전문가를 호출하고, 시각적으로 특징적인 버튼을 클릭하면 시각적 기본 모델로 전환할 수 있습니다. 기본적인 인터랙션 이해와 높은 수준의 작업 계획을 분리하면 복잡한 문제가 상대적으로 간단하고 모델 친화적인 두 가지 하위 문제로 세분화됩니다.
- 활성 계획(PHP). PHP 모듈을 사용하면 인공지능이 환경의 새로운 관찰에 대응하여 하위 목표와 실행 계획을 지속적으로 조정할 수 있습니다. 이러한 적응은 작업을 수행하는 동안 상황이 변할 때 계획을 재평가하고 수정하는 인간의 행동 패턴을 모방합니다.
예: 에이전트 S2는 상호 작용에서 시각적 기본 모델에서 텍스트 기본 모델로 전환하여 자체 수정합니다.
확장성 및 오류 복구
더 긴 시퀀스 연산을 실행해야 하는 작업에서는 Agent S2
조합형 아키텍처는 모놀리식 모델보다 확장성이 뛰어납니다. 동적 적응 및 자기 수정 기능을 통해 초기 작업이 원하는 효과를 얻지 못할 때 전략을 조정할 수 있으므로 복잡한 작업의 완료율을 향상시킬 수 있습니다. 모놀리식 모델은 누적된 오류나 계획의 경직성으로 인해 긴 순차 작업에서 실패하기 쉬운 경향이 있습니다.
에이전트 S2가 긴 시계열 작업에서 성능을 유지하는 이유: 적응형 탐색, 상호작용 및 오류 수정 메커니즘.
데스크톱 환경을 넘어: Android 플랫폼의 일반화된 성능
망설이지 말고 (실행하세요.) Agent S2
의 주요 개발 목표는 데스크톱 환경을 위한 인텔리전스이지만, 프레임워크 설계는 모바일 환경에도 잘 일반화되어 있습니다. 모바일 환경에서는 AndroidWorld
벤치마크 테스트에서 최고의 성능을 보인 것은 MoG 및 PHP와 같은 핵심 개념이 다양한 유형의 GUI 환경에 적합하다는 것을 증명합니다.
Agent S2는 AndroidWorld 스마트폰 사용량 벤치마크에서 선두를 달성했습니다.
모듈형 인텔리전스의 발전
Agent S2
이 연구 결과는 조합적 설계가 건축적 선택일 뿐만 아니라 강력하고 인간과 유사한 방식으로 컴퓨터를 작동할 수 있는 지능을 구축하는 효과적인 방법이 될 수 있음을 시사합니다. 이 연구는 향후 AI 계획, 기본적인 상호 작용 이해(접지), 멀티모달 조정에 대한 연구에 새로운 가능성을 열어줍니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...