Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Agente S: uma estrutura de código aberto para que corpos inteligentes operem computadores como seres humanos

Introdução geral

O Agent S é uma estrutura de código aberto desenvolvida pela Simular AI que permite que as inteligências operem computadores como seres humanos por meio de uma interface gráfica do usuário (GUI). Ele usa um modelo de macrolinguagem multimodal e técnicas de aprendizado empírico para executar tarefas como navegar na Web, editar documentos e usar software. O projeto é de código aberto no GitHub e tem uma comunidade de desenvolvedores ativa. O artigo do Agente S1 foi aceito pelo ICLR em 2025, e o Agente S2 foi lançado em março de 2025, superando o OpenAI e o Antrópica É compatível com macOS, Windows e Linux. Ele é compatível com macOS, Windows e Linux e é adequado para escritórios automatizados, testes de software e pesquisa de IA.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-1


 

Lista de funções

  • Operação da interface gráfica do usuário (GUI)Mouse e teclado analógicos para interagir com o software do computador.
  • Atribuição de tarefas e planejamentoDivisão de tarefas complexas em pequenas etapas e automatização de sua execução.
  • Aprendendo com a experiênciaAprendizado com tarefas históricas para aumentar a eficiência.
  • Suporte a várias plataformasDisponível no macOS (Pacote de instalação com um clique), Windows e Linux.
  • Entradas multimodaisCombine imagens de tela e elementos de interface para uma operação precisa.
  • Personalização de código abertoCódigo-fonte e documentação são fornecidos e podem ser livremente adaptados pelo desenvolvedor.
  • Atualização da base de conhecimentoAtualização contínua dos dados de experiência em tempo de execução para aprimorar a inteligência.

 

Usando a Ajuda

O Agent S é uma ferramenta de código aberto para desenvolvedores que requer uma certa base de programação para ser instalada e usada. Abaixo estão as etapas detalhadas e as instruções funcionais para ajudar os usuários a começar rapidamente.

Processo de instalação

  1. Preparação do ambiente
    • Instale o Python 3.9 a 3.12.
    • Instale o Git para fazer download do código.
    • Opcional: prepare uma máquina virtual (como a VMware) para testar ou isolar o ambiente.
  2. Código de download
    • Abra um terminal e execute-o:
      git clone https://github.com/simular-ai/Agent-S.git
      
    • Vá para o catálogo de projetos:
      cd Agent-S
      
  3. Instalação de dependências
    • Crie um ambiente virtual (recomendado):
      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • Instale a biblioteca principal:
      pip install gui-agents
      
    • Definição de variáveis de ambiente (por exemplo, chaves de API):
      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. Agente inicial S
    • Execute o agente S1 ou S2:
      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • Depois de iniciado, insira a tarefa para começar.

Funções principais

Operação da interface gráfica do usuário (GUI)

  • Descrição funcionalSimula a operação humana por meio de capturas de tela e reconhecimento de interface.
  • procedimento::
    1. estar em movimento agent_s2.
    2. Digite a tarefa: "Abra o Bloco de Notas e digite 'hello'".
    3. Agente S2 Localize o ícone do Bloco de Notas, clique nele para abri-lo e digite seu texto.
    4. Pressione Ctrl+C para parar a qualquer momento.

Atribuição de tarefas e planejamento

  • Descrição funcionalDivisão de tarefas complexas em pequenas etapas e conclusão gradual.
  • procedimento::
    1. Digite "Send an email to a friend" (Enviar um e-mail para um amigo).
    2. O Agente S2 faz isso automaticamente: abra o software de correio eletrônico, crie uma nova mensagem, preencha o conteúdo e clique em enviar.
    3. Os usuários podem visualizar os logs de cada etapa no terminal.

Aprendendo com a experiência

  • Descrição funcionalRegistre o curso da tarefa e otimize as operações de acompanhamento.
  • procedimento::
    1. Depois de concluir a missão, a experiência é salva em gui_agents/kb Pasta.
    2. A execução de tarefas semelhantes novamente aumentará a eficiência.
    3. Os desenvolvedores podem verificar o documento da base de conhecimento para obter conteúdo de aprendizado.

Operação da função em destaque

Suporte a várias plataformas

  • Descrição funcionalSuporte para os três principais sistemas operacionais.
  • procedimento::
    1. O Windows requer a instalação de pywin32 responder cantando pywinauto.
    2. Necessário macOS pyobjcuso pip install pyobjc Instalação.
    3. Verificação do Linux pyautogui compatibilidade, as permissões podem precisar ser ajustadas.

Entradas multimodais

  • Descrição funcionalCombine dados de imagem e de interface para melhorar a precisão operacional.
  • procedimento::
    1. Digite "Search for 'weather' in your browser".
    2. O agente S2 analisa a tela, encontra a janela do navegador e digita um termo de pesquisa.
    3. Os resultados são exibidos automaticamente.

Download da base de conhecimento

  • Descrição funcionalAgente S2: o agente S2 usa uma base de conhecimento pré-treinada e suporta operação off-line.
  • procedimento::
    1. Baixe automaticamente a base de conhecimento das versões do GitHub na primeira inicialização.
    2. Exemplo de download de manual:
      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. O caminho da base de conhecimento está no kb_data Pasta.

Configuração avançada

Integração da Pesquisa Perplexica

  • Descrição funcionalAgente S: Aprimoramento da capacidade de recuperação de conhecimento da Web do Agente S.
  • procedimento::
    1. Instale o Docker Desktop e inicie-o.
    2. Faça o download do Perplexica:
      cd Perplexica
      git submodule update --init
      
    3. renomear sample.config.toml por causa de config.tomlSe você não tiver certeza sobre a chave da API, preencha a chave da API.
    4. Inicie o serviço:
      docker compose up -d
      
    5. Defina o URL da Perplexica:
      export PERPLEXICA_URL=http://localhost:端口/api/search
      

Modelos personalizados

  • Descrição funcionalSuporte a vários modelos grandes e pontos de extremidade personalizados.
  • procedimento::
    1. fazer uso de Claude Modelos:
      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. Use o ponto de extremidade Hugging Face:
      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      

advertência

  • A primeira execução requer conexão com a Internet para fazer o download das dependências e da base de conhecimento.
  • Os usuários do Linux evitam o ambiente Conda, que pode interferir com o pyatspi.
  • A documentação detalhada está disponível em README.md responder cantando models.md Médio.

 

cenário do aplicativo

  1. automação de escritório
    O Agent S preenche automaticamente formulários e envia e-mails, reduzindo o trabalho repetitivo.
  2. teste de software
    Simule as operações do usuário e teste a estabilidade do software em diferentes sistemas.
  3. Pesquisa de IA
    Os pesquisadores o utilizam para explorar os princípios técnicos da interação inteligente entre o corpo e o computador.

 

QA

  1. Qual é a diferença entre os agentes S2 e S1?
    O S2 é uma versão atualizada do S1 com mais desempenho e suporte para mais benchmarks, como OSWorld e AndroidWorld.
  2. Preciso estar conectado o tempo todo?
    O acesso à Internet é necessário para a primeira instalação e download da base de conhecimento, após o que ela pode ser executada off-line.
  3. Como entro em contato com o suporte da comunidade?
    Participe do servidor Discord (https://discord.gg/E2XfsK9fPV) ou envie um problema no GitHub.

 

Detalhes técnicos do Agent S2 anunciados: uma estrutura de IA combinatória para operações de computador de uso geral

A criação de inteligências capazes de usar computadores com a mesma habilidade dos seres humanos é um dos principais desafios no caminho para a inteligência artificial (AGI) de uso geral. Essas tarefas abrangem uma ampla gama de cenários, desde a execução de tarefas numéricas abertas até a navegação em aplicativos desconhecidos por meio de interfaces gráficas de usuário (GUIs) com espaços de problemas que são grandes, barulhentos e altamente dinâmicos. Recentemente, um artigo sobre Agent S2 O lançamento oficial do artigo técnico da pesquisa, que propõe uma estrutura modular e alcança desempenho líder em vários benchmarks de uso de computadores.

Agent S2 O código associado a esta versão já foi aberto anteriormente. O documento técnico lançado (disponível em arXiv (Get) oferece uma visão aprofundada dos principais conceitos e do projeto arquitetônico do sistema. A Simular AI, a equipe de pesquisa por trás do sistema, também publicou anteriormente um artigo introdutório para leitores não especializados.

Visão geral do agente S2: projetos inteligentes combinados

Agent S2 A filosofia central do projeto é decompor tarefas complexas de operação do computador, não confiando em um modelo único e grande para fazer todo o trabalho de planejamento, ação e compreensão da interação com a tela, mas atribuindo essas responsabilidades a um módulo de planejamento generalista e a um módulo especializado de execução/compreensão (especialistas). Essa arquitetura combinada tem o objetivo de imitar a maneira como as equipes de especialistas humanos trabalham: planejadores de alto nível, executores de baixo nível e especialistas em interação de interface trabalhando em conjunto.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-1
Diagrama de arquitetura do agente S2: combina um planejador genérico com módulos básicos especializados.

Agent S2 Os principais recursos incluem:

  • Mistura de aterramento (MoG). Use um conjunto de modelos especializados subjacentes (incluindo extração de informações visuais, textuais e estruturadas) para localizar com precisão os elementos da GUI. Por exemplo, trabalhar com uma planilha pode se concentrar em dados estruturados, enquanto clicar em um botão depende da orientação visual. Esse design desvincula o aterramento do planejamento, reduzindo efetivamente a complexidade do problema e alinhando-o mais com a distribuição atual de treinamento para modelos de inferência genéricos e modelos de base visual especializados.
  • Planejamento hierárquico proativo (PHP). A estrutura é capaz de adaptar e refinar dinamicamente seus planos em resposta ao feedback do ambiente, em vez de seguir rigidamente um roteiro predefinido. Isso permite que a inteligência seja mais flexível na resposta a situações imprevistas.

Resultados de benchmark: Líder em desempenho entre plataformas

Os dados do documento mostram que Agent S2 No amplamente utilizado OSWorld Um novo recorde de desempenho foi estabelecido em testes de benchmark. OSWorld Ele avalia principalmente a capacidade das inteligências de IA de concluir diversas tarefas, como gerenciamento de arquivos, uso de software e recuperação de informações em um ambiente de sistema operacional simulado.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-1
Comparação da taxa de sucesso da OSWorld Benchmark.

Além disso. Agent S2 Ele também mostra uma boa generalização em outras plataformas:

  • WindowsAgentArena. Esse é um parâmetro de comparação que se concentra em tarefas de interação complexas no ambiente Windows. Agent S2 O desempenho nesse teste melhorou em 52,81 TP3T em comparação com o Melhor Resultado Aberto (SOTA) anterior.
  • AndroidWorld. Esse benchmark mede a capacidade de concluir tarefas no sistema operacional móvel Android. Agent S2 O desempenho aqui também supera os resultados anteriores do SOTA, melhorando em 16,51 TP3T.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-3
O desempenho da taxa de sucesso no OSWorld mostra que o Agent S2 supera os métodos anteriores.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-1
Desempenho da taxa de sucesso no WindowsAgentArena.

Inovação em design: sinergias entre o MoG e o PHP

Os principais desafios enfrentados por muitas inteligências computacionais existentes na prática decorrem da compreensão imprecisa dos elementos da interface (ou seja, o problema do "aterramento da base") ou de processos de execução de planos excessivamente rígidos. Agent S2 Essas questões são abordadas por meio de seus dois projetos principais:

  • Modelagem de base mista (MoG). O mecanismo MoG é capaz de encaminhar tarefas de forma inteligente para o modelo de especialista mais adequado com base nos requisitos de interação atuais. Por exemplo, o reconhecimento e a manipulação de uma célula de planilha eletrônica podem invocar um especialista com base na análise estrutural, enquanto se alterna para um modelo de base visual ao clicar em um botão visualmente distinto. Separar a compreensão básica da interação do planejamento de tarefas de alto nível basicamente divide um problema complexo em dois subproblemas relativamente mais simples e mais fáceis de modelar.
  • Planejamento ativo (PHP). O módulo PHP permite que as inteligências adaptem continuamente as submetas e os planos de ação em resposta a novas observações no ambiente. Essa adaptação imita o padrão comportamental humano de reavaliação e revisão de planos quando a situação muda durante a execução de uma tarefa.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-5
Exemplo: o agente S2 se autocorrige em uma interação, mudando de um modelo de base visual para um modelo de base textual.

Escalabilidade e recuperação de erros

Foi demonstrado que, em tarefas que exigem a execução de operações de sequência mais longas, o Agent S2 A arquitetura combinatória apresenta melhor escalabilidade do que os modelos monolíticos. Seus recursos dinâmicos de adaptação e autocorreção permitem que eles ajustem suas estratégias quando as ações iniciais não surtem o efeito desejado, melhorando assim a taxa de conclusão de tarefas complexas. Os modelos monolíticos tendem a ser mais propensos a falhas em tarefas sequenciais longas devido a erros cumulativos ou rigidez de planejamento.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-6
Razões pelas quais o Agente S2 mantém seu desempenho em tarefas de séries temporais longas: navegação adaptativa, interação e mecanismos de correção de erros.

Além do ambiente de desktop: desempenho generalizado na plataforma Android

(go ahead and do it) without hesitating Agent S2 O principal alvo de desenvolvimento da Microsoft é a inteligência para ambientes de desktop, mas o design da estrutura mostrou boa generalização para ambientes móveis também. No AndroidWorld O desempenho líder no teste de benchmark comprova a adequação de seus principais conceitos, como MoG e PHP, para diferentes tipos de ambientes de GUI.

Agente S: uma estrutura de corpo inteligente de código aberto para operar computadores como seres humanos-7
O Agente S2 alcança a liderança nos benchmarks de uso de smartphones do AndroidWorld.

Avanços em inteligências modulares

Agent S2 Os resultados do estudo sugerem que o design combinatório não é apenas uma escolha arquitetônica, mas pode ser uma maneira eficaz de criar inteligências que possam operar computadores de maneira robusta e semelhante à humana. Este trabalho abre novas possibilidades para pesquisas futuras em planejamento de IA, compreensão básica de interação (grounding) e coordenação multimodal.

Recomenda-se que os leitores interessados consultem o detalhado Documentos técnicos relevante código aberto.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Agente S: uma estrutura de código aberto para que corpos inteligentes operem computadores como seres humanos
pt_BRPortuguês do Brasil