Introdução geral
O Agent S é uma estrutura de código aberto desenvolvida pela Simular AI que permite que as inteligências operem computadores como seres humanos por meio de uma interface gráfica do usuário (GUI). Ele usa um modelo de macrolinguagem multimodal e técnicas de aprendizado empírico para executar tarefas como navegar na Web, editar documentos e usar software. O projeto é de código aberto no GitHub e tem uma comunidade de desenvolvedores ativa. O artigo do Agente S1 foi aceito pelo ICLR em 2025, e o Agente S2 foi lançado em março de 2025, superando o OpenAI e o Antrópica É compatível com macOS, Windows e Linux. Ele é compatível com macOS, Windows e Linux e é adequado para escritórios automatizados, testes de software e pesquisa de IA.
Lista de funções
- Operação da interface gráfica do usuário (GUI)Mouse e teclado analógicos para interagir com o software do computador.
- Atribuição de tarefas e planejamentoDivisão de tarefas complexas em pequenas etapas e automatização de sua execução.
- Aprendendo com a experiênciaAprendizado com tarefas históricas para aumentar a eficiência.
- Suporte a várias plataformasDisponível no macOS (Pacote de instalação com um clique), Windows e Linux.
- Entradas multimodaisCombine imagens de tela e elementos de interface para uma operação precisa.
- Personalização de código abertoCódigo-fonte e documentação são fornecidos e podem ser livremente adaptados pelo desenvolvedor.
- Atualização da base de conhecimentoAtualização contínua dos dados de experiência em tempo de execução para aprimorar a inteligência.
Usando a Ajuda
O Agent S é uma ferramenta de código aberto para desenvolvedores que requer uma certa base de programação para ser instalada e usada. Abaixo estão as etapas detalhadas e as instruções funcionais para ajudar os usuários a começar rapidamente.
Processo de instalação
- Preparação do ambiente
- Instale o Python 3.9 a 3.12.
- Instale o Git para fazer download do código.
- Opcional: prepare uma máquina virtual (como a VMware) para testar ou isolar o ambiente.
- Código de download
- Abra um terminal e execute-o:
git clone https://github.com/simular-ai/Agent-S.git
- Vá para o catálogo de projetos:
cd Agent-S
- Abra um terminal e execute-o:
- Instalação de dependências
- Crie um ambiente virtual (recomendado):
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows
- Instale a biblioteca principal:
pip install gui-agents
- Definição de variáveis de ambiente (por exemplo, chaves de API):
export OPENAI_API_KEY=<你的密钥> export ANTHROPIC_API_KEY=<你的密钥> export HF_TOKEN=<你的Hugging Face密钥>
- Crie um ambiente virtual (recomendado):
- Agente inicial S
- Execute o agente S1 ou S2:
agent_s1 # 运行 Agent S1 agent_s2 # 运行 Agent S2
- Depois de iniciado, insira a tarefa para começar.
- Execute o agente S1 ou S2:
Funções principais
Operação da interface gráfica do usuário (GUI)
- Descrição funcionalSimula a operação humana por meio de capturas de tela e reconhecimento de interface.
- procedimento::
- estar em movimento
agent_s2
. - Digite a tarefa: "Abra o Bloco de Notas e digite 'hello'".
- Agente S2 Localize o ícone do Bloco de Notas, clique nele para abri-lo e digite seu texto.
- Pressione Ctrl+C para parar a qualquer momento.
- estar em movimento
Atribuição de tarefas e planejamento
- Descrição funcionalDivisão de tarefas complexas em pequenas etapas e conclusão gradual.
- procedimento::
- Digite "Send an email to a friend" (Enviar um e-mail para um amigo).
- O Agente S2 faz isso automaticamente: abra o software de correio eletrônico, crie uma nova mensagem, preencha o conteúdo e clique em enviar.
- Os usuários podem visualizar os logs de cada etapa no terminal.
Aprendendo com a experiência
- Descrição funcionalRegistre o curso da tarefa e otimize as operações de acompanhamento.
- procedimento::
- Depois de concluir a missão, a experiência é salva em
gui_agents/kb
Pasta. - A execução de tarefas semelhantes novamente aumentará a eficiência.
- Os desenvolvedores podem verificar o documento da base de conhecimento para obter conteúdo de aprendizado.
- Depois de concluir a missão, a experiência é salva em
Operação da função em destaque
Suporte a várias plataformas
- Descrição funcionalSuporte para os três principais sistemas operacionais.
- procedimento::
- O Windows requer a instalação de
pywin32
responder cantandopywinauto
. - Necessário macOS
pyobjc
usopip install pyobjc
Instalação. - Verificação do Linux
pyautogui
compatibilidade, as permissões podem precisar ser ajustadas.
- O Windows requer a instalação de
Entradas multimodais
- Descrição funcionalCombine dados de imagem e de interface para melhorar a precisão operacional.
- procedimento::
- Digite "Search for 'weather' in your browser".
- O agente S2 analisa a tela, encontra a janela do navegador e digita um termo de pesquisa.
- Os resultados são exibidos automaticamente.
Download da base de conhecimento
- Descrição funcionalAgente S2: o agente S2 usa uma base de conhecimento pré-treinada e suporta operação off-line.
- procedimento::
- Baixe automaticamente a base de conhecimento das versões do GitHub na primeira inicialização.
- Exemplo de download de manual:
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
- O caminho da base de conhecimento está no
kb_data
Pasta.
Configuração avançada
Integração da Pesquisa Perplexica
- Descrição funcionalAgente S: Aprimoramento da capacidade de recuperação de conhecimento da Web do Agente S.
- procedimento::
- Instale o Docker Desktop e inicie-o.
- Faça o download do Perplexica:
cd Perplexica git submodule update --init
- renomear
sample.config.toml
por causa deconfig.toml
Se você não tiver certeza sobre a chave da API, preencha a chave da API. - Inicie o serviço:
docker compose up -d
- Defina o URL da Perplexica:
export PERPLEXICA_URL=http://localhost:端口/api/search
Modelos personalizados
- Descrição funcionalSuporte a vários modelos grandes e pontos de extremidade personalizados.
- procedimento::
- fazer uso de Claude Modelos:
agent_s2 --model claude-3-7-sonnet-20250219
- Use o ponto de extremidade Hugging Face:
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
- fazer uso de Claude Modelos:
advertência
- A primeira execução requer conexão com a Internet para fazer o download das dependências e da base de conhecimento.
- Os usuários do Linux evitam o ambiente Conda, que pode interferir com o
pyatspi
. - A documentação detalhada está disponível em
README.md
responder cantandomodels.md
Médio.
cenário do aplicativo
- automação de escritório
O Agent S preenche automaticamente formulários e envia e-mails, reduzindo o trabalho repetitivo. - teste de software
Simule as operações do usuário e teste a estabilidade do software em diferentes sistemas. - Pesquisa de IA
Os pesquisadores o utilizam para explorar os princípios técnicos da interação inteligente entre o corpo e o computador.
QA
- Qual é a diferença entre os agentes S2 e S1?
O S2 é uma versão atualizada do S1 com mais desempenho e suporte para mais benchmarks, como OSWorld e AndroidWorld. - Preciso estar conectado o tempo todo?
O acesso à Internet é necessário para a primeira instalação e download da base de conhecimento, após o que ela pode ser executada off-line. - Como entro em contato com o suporte da comunidade?
Participe do servidor Discord (https://discord.gg/E2XfsK9fPV) ou envie um problema no GitHub.
Detalhes técnicos do Agent S2 anunciados: uma estrutura de IA combinatória para operações de computador de uso geral
A criação de inteligências capazes de usar computadores com a mesma habilidade dos seres humanos é um dos principais desafios no caminho para a inteligência artificial (AGI) de uso geral. Essas tarefas abrangem uma ampla gama de cenários, desde a execução de tarefas numéricas abertas até a navegação em aplicativos desconhecidos por meio de interfaces gráficas de usuário (GUIs) com espaços de problemas que são grandes, barulhentos e altamente dinâmicos. Recentemente, um artigo sobre Agent S2
O lançamento oficial do artigo técnico da pesquisa, que propõe uma estrutura modular e alcança desempenho líder em vários benchmarks de uso de computadores.
Agent S2
O código associado a esta versão já foi aberto anteriormente. O documento técnico lançado (disponível em arXiv (Get) oferece uma visão aprofundada dos principais conceitos e do projeto arquitetônico do sistema. A Simular AI, a equipe de pesquisa por trás do sistema, também publicou anteriormente um artigo introdutório para leitores não especializados.
Visão geral do agente S2: projetos inteligentes combinados
Agent S2
A filosofia central do projeto é decompor tarefas complexas de operação do computador, não confiando em um modelo único e grande para fazer todo o trabalho de planejamento, ação e compreensão da interação com a tela, mas atribuindo essas responsabilidades a um módulo de planejamento generalista e a um módulo especializado de execução/compreensão (especialistas). Essa arquitetura combinada tem o objetivo de imitar a maneira como as equipes de especialistas humanos trabalham: planejadores de alto nível, executores de baixo nível e especialistas em interação de interface trabalhando em conjunto.
Diagrama de arquitetura do agente S2: combina um planejador genérico com módulos básicos especializados.
Agent S2
Os principais recursos incluem:
- Mistura de aterramento (MoG). Use um conjunto de modelos especializados subjacentes (incluindo extração de informações visuais, textuais e estruturadas) para localizar com precisão os elementos da GUI. Por exemplo, trabalhar com uma planilha pode se concentrar em dados estruturados, enquanto clicar em um botão depende da orientação visual. Esse design desvincula o aterramento do planejamento, reduzindo efetivamente a complexidade do problema e alinhando-o mais com a distribuição atual de treinamento para modelos de inferência genéricos e modelos de base visual especializados.
- Planejamento hierárquico proativo (PHP). A estrutura é capaz de adaptar e refinar dinamicamente seus planos em resposta ao feedback do ambiente, em vez de seguir rigidamente um roteiro predefinido. Isso permite que a inteligência seja mais flexível na resposta a situações imprevistas.
Resultados de benchmark: Líder em desempenho entre plataformas
Os dados do documento mostram que Agent S2
No amplamente utilizado OSWorld
Um novo recorde de desempenho foi estabelecido em testes de benchmark. OSWorld
Ele avalia principalmente a capacidade das inteligências de IA de concluir diversas tarefas, como gerenciamento de arquivos, uso de software e recuperação de informações em um ambiente de sistema operacional simulado.
Comparação da taxa de sucesso da OSWorld Benchmark.
Além disso. Agent S2
Ele também mostra uma boa generalização em outras plataformas:
- WindowsAgentArena. Esse é um parâmetro de comparação que se concentra em tarefas de interação complexas no ambiente Windows.
Agent S2
O desempenho nesse teste melhorou em 52,81 TP3T em comparação com o Melhor Resultado Aberto (SOTA) anterior. - AndroidWorld. Esse benchmark mede a capacidade de concluir tarefas no sistema operacional móvel Android.
Agent S2
O desempenho aqui também supera os resultados anteriores do SOTA, melhorando em 16,51 TP3T.
O desempenho da taxa de sucesso no OSWorld mostra que o Agent S2 supera os métodos anteriores.
Desempenho da taxa de sucesso no WindowsAgentArena.
Inovação em design: sinergias entre o MoG e o PHP
Os principais desafios enfrentados por muitas inteligências computacionais existentes na prática decorrem da compreensão imprecisa dos elementos da interface (ou seja, o problema do "aterramento da base") ou de processos de execução de planos excessivamente rígidos. Agent S2
Essas questões são abordadas por meio de seus dois projetos principais:
- Modelagem de base mista (MoG). O mecanismo MoG é capaz de encaminhar tarefas de forma inteligente para o modelo de especialista mais adequado com base nos requisitos de interação atuais. Por exemplo, o reconhecimento e a manipulação de uma célula de planilha eletrônica podem invocar um especialista com base na análise estrutural, enquanto se alterna para um modelo de base visual ao clicar em um botão visualmente distinto. Separar a compreensão básica da interação do planejamento de tarefas de alto nível basicamente divide um problema complexo em dois subproblemas relativamente mais simples e mais fáceis de modelar.
- Planejamento ativo (PHP). O módulo PHP permite que as inteligências adaptem continuamente as submetas e os planos de ação em resposta a novas observações no ambiente. Essa adaptação imita o padrão comportamental humano de reavaliação e revisão de planos quando a situação muda durante a execução de uma tarefa.
Exemplo: o agente S2 se autocorrige em uma interação, mudando de um modelo de base visual para um modelo de base textual.
Escalabilidade e recuperação de erros
Foi demonstrado que, em tarefas que exigem a execução de operações de sequência mais longas, o Agent S2
A arquitetura combinatória apresenta melhor escalabilidade do que os modelos monolíticos. Seus recursos dinâmicos de adaptação e autocorreção permitem que eles ajustem suas estratégias quando as ações iniciais não surtem o efeito desejado, melhorando assim a taxa de conclusão de tarefas complexas. Os modelos monolíticos tendem a ser mais propensos a falhas em tarefas sequenciais longas devido a erros cumulativos ou rigidez de planejamento.
Razões pelas quais o Agente S2 mantém seu desempenho em tarefas de séries temporais longas: navegação adaptativa, interação e mecanismos de correção de erros.
Além do ambiente de desktop: desempenho generalizado na plataforma Android
(go ahead and do it) without hesitating Agent S2
O principal alvo de desenvolvimento da Microsoft é a inteligência para ambientes de desktop, mas o design da estrutura mostrou boa generalização para ambientes móveis também. No AndroidWorld
O desempenho líder no teste de benchmark comprova a adequação de seus principais conceitos, como MoG e PHP, para diferentes tipos de ambientes de GUI.
O Agente S2 alcança a liderança nos benchmarks de uso de smartphones do AndroidWorld.
Avanços em inteligências modulares
Agent S2
Os resultados do estudo sugerem que o design combinatório não é apenas uma escolha arquitetônica, mas pode ser uma maneira eficaz de criar inteligências que possam operar computadores de maneira robusta e semelhante à humana. Este trabalho abre novas possibilidades para pesquisas futuras em planejamento de IA, compreensão básica de interação (grounding) e coordenação multimodal.
Recomenda-se que os leitores interessados consultem o detalhado Documentos técnicos relevante código aberto.