Agente S: uma estrutura de código aberto para que corpos inteligentes operem computadores como seres humanos

Recursos mais recentes de IAAtualizado há 4 meses Círculo de compartilhamento de IA

1.3K 00

Introdução geral

O Agent S é uma estrutura de código aberto desenvolvida pela Simular AI que permite que as inteligências operem computadores como seres humanos por meio de uma interface gráfica do usuário (GUI). Ele usa um modelo de macrolinguagem multimodal e técnicas de aprendizado empírico para executar tarefas como navegar na Web, editar documentos e usar software. O projeto é de código aberto no GitHub e tem uma comunidade de desenvolvedores ativa. O artigo do Agente S1 foi aceito pelo ICLR em 2025, e o Agente S2 foi lançado em março de 2025, superando o OpenAI e o Antrópica É compatível com macOS, Windows e Linux. Ele é compatível com macOS, Windows e Linux e é adequado para escritórios automatizados, testes de software e pesquisa de IA.

Lista de funções

Operação da interface gráfica do usuário (GUI)Mouse e teclado analógicos para interagir com o software do computador.
Atribuição de tarefas e planejamentoDivisão de tarefas complexas em pequenas etapas e automatização de sua execução.
Aprendendo com a experiênciaAprendizado com tarefas históricas para aumentar a eficiência.
Suporte a várias plataformasDisponível no macOS (Pacote de instalação com um clique), Windows e Linux.
Entradas multimodaisCombine imagens de tela e elementos de interface para uma operação precisa.
Personalização de código abertoCódigo-fonte e documentação são fornecidos e podem ser livremente adaptados pelo desenvolvedor.
Atualização da base de conhecimentoAtualização contínua dos dados de experiência em tempo de execução para aprimorar a inteligência.

Usando a Ajuda

O Agent S é uma ferramenta de código aberto para desenvolvedores que requer uma certa base de programação para ser instalada e usada. Abaixo estão as etapas detalhadas e as instruções funcionais para ajudar os usuários a começar rapidamente.

Processo de instalação

Preparação do ambiente
- Instale o Python 3.9 a 3.12.
- Instale o Git para fazer download do código.
- Opcional: prepare uma máquina virtual (como a VMware) para testar ou isolar o ambiente.
Código de download
- Abra um terminal e execute-o:
```
git clone https://github.com/simular-ai/Agent-S.git
```
- Vá para o catálogo de projetos:
```
cd Agent-S
```

Instalação de dependências

Crie um ambiente virtual (recomendado):

python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows

Instale a biblioteca principal:
```
pip install gui-agents
```

Definição de variáveis de ambiente (por exemplo, chaves de API):

export OPENAI_API_KEY=<你的密钥>
export ANTHROPIC_API_KEY=<你的密钥>
export HF_TOKEN=<你的Hugging Face密钥>

Agente inicial S
- Execute o agente S1 ou S2:
```
agent_s1  # 运行 Agent S1
agent_s2  # 运行 Agent S2
```
- Depois de iniciado, insira a tarefa para começar.

Funções principais

Operação da interface gráfica do usuário (GUI)

Descrição funcionalSimula a operação humana por meio de capturas de tela e reconhecimento de interface.
procedimento::
1. estar em movimento agent_s2.
2. Digite a tarefa: "Abra o Bloco de Notas e digite 'hello'".
3. Agente S2 Localize o ícone do Bloco de Notas, clique nele para abri-lo e digite seu texto.
4. Pressione Ctrl+C para parar a qualquer momento.

Atribuição de tarefas e planejamento

Descrição funcionalDivisão de tarefas complexas em pequenas etapas e conclusão gradual.
procedimento::
1. Digite "Send an email to a friend" (Enviar um e-mail para um amigo).
2. O Agente S2 faz isso automaticamente: abra o software de correio eletrônico, crie uma nova mensagem, preencha o conteúdo e clique em enviar.
3. Os usuários podem visualizar os logs de cada etapa no terminal.

Aprendendo com a experiência

Descrição funcionalRegistre o curso da tarefa e otimize as operações de acompanhamento.
procedimento::
1. Depois de concluir a missão, a experiência é salva em gui_agents/kb Pasta.
2. A execução de tarefas semelhantes novamente aumentará a eficiência.
3. Os desenvolvedores podem verificar o documento da base de conhecimento para obter conteúdo de aprendizado.

Operação da função em destaque

Suporte a várias plataformas

Descrição funcionalSuporte para os três principais sistemas operacionais.
procedimento::
1. O Windows requer a instalação de pywin32 responder cantando pywinauto.
2. Necessário macOS pyobjcuso pip install pyobjc Instalação.
3. Verificação do Linux pyautogui compatibilidade, as permissões podem precisar ser ajustadas.

Entradas multimodais

Descrição funcionalCombine dados de imagem e de interface para melhorar a precisão operacional.
procedimento::
1. Digite "Search for 'weather' in your browser".
2. O agente S2 analisa a tela, encontra a janela do navegador e digita um termo de pesquisa.
3. Os resultados são exibidos automaticamente.

Download da base de conhecimento

Descrição funcionalAgente S2: o agente S2 usa uma base de conhecimento pré-treinada e suporta operação off-line.
procedimento::
1. Baixe automaticamente a base de conhecimento das versões do GitHub na primeira inicialização.
2. Exemplo de download de manual:
```
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
```
3. O caminho da base de conhecimento está no kb_data Pasta.

Configuração avançada

Integração da Pesquisa Perplexica

Descrição funcionalAgente S: Aprimoramento da capacidade de recuperação de conhecimento da Web do Agente S.
procedimento::
1. Instale o Docker Desktop e inicie-o.
2. Faça o download do Perplexica:
```
cd Perplexica
git submodule update --init
```
3. renomear sample.config.toml por causa de config.tomlSe você não tiver certeza sobre a chave da API, preencha a chave da API.
4. Inicie o serviço:
```
docker compose up -d
```
5. Defina o URL da Perplexica:
```
export PERPLEXICA_URL=http://localhost:端口/api/search
```

Modelos personalizados

Descrição funcionalSuporte a vários modelos grandes e pontos de extremidade personalizados.

procedimento::

fazer uso de Claude Modelos:

agent_s2 --model claude-3-7-sonnet-20250219

Use o ponto de extremidade Hugging Face:

agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"

advertência

A primeira execução requer conexão com a Internet para fazer o download das dependências e da base de conhecimento.
Os usuários do Linux evitam o ambiente Conda, que pode interferir com o pyatspi.
A documentação detalhada está disponível em README.md responder cantando models.md Médio.

cenário do aplicativo

automação de escritório
O Agent S preenche automaticamente formulários e envia e-mails, reduzindo o trabalho repetitivo.
teste de software
Simule as operações do usuário e teste a estabilidade do software em diferentes sistemas.
Pesquisa de IA
Os pesquisadores o utilizam para explorar os princípios técnicos da interação inteligente entre o corpo e o computador.

QA

Qual é a diferença entre os agentes S2 e S1?
O S2 é uma versão atualizada do S1 com mais desempenho e suporte para mais benchmarks, como OSWorld e AndroidWorld.
Preciso estar conectado o tempo todo?
O acesso à Internet é necessário para a primeira instalação e download da base de conhecimento, após o que ela pode ser executada off-line.
Como entro em contato com o suporte da comunidade?
Participe do servidor Discord (https://discord.gg/E2XfsK9fPV) ou envie um problema no GitHub.

Detalhes técnicos do Agent S2 anunciados: uma estrutura de IA combinatória para operações de computador de uso geral

A criação de inteligências capazes de usar computadores com a mesma habilidade dos seres humanos é um dos principais desafios no caminho para a inteligência artificial (AGI) de uso geral. Essas tarefas abrangem uma ampla gama de cenários, desde a execução de tarefas numéricas abertas até a navegação em aplicativos desconhecidos por meio de interfaces gráficas de usuário (GUIs) com espaços de problemas que são grandes, barulhentos e altamente dinâmicos. Recentemente, um artigo sobre Agent S2 O lançamento oficial do artigo técnico da pesquisa, que propõe uma estrutura modular e alcança desempenho líder em vários benchmarks de uso de computadores.

Agent S2 O código associado a esta versão já foi aberto anteriormente. O documento técnico lançado (disponível em arXiv (Get) oferece uma visão aprofundada dos principais conceitos e do projeto arquitetônico do sistema. A Simular AI, a equipe de pesquisa por trás do sistema, também publicou anteriormente um artigo introdutório para leitores não especializados.

Visão geral do agente S2: projetos inteligentes combinados

Agent S2 A filosofia central do projeto é decompor tarefas complexas de operação do computador, não confiando em um modelo único e grande para fazer todo o trabalho de planejamento, ação e compreensão da interação com a tela, mas atribuindo essas responsabilidades a um módulo de planejamento generalista e a um módulo especializado de execução/compreensão (especialistas). Essa arquitetura combinada tem o objetivo de imitar a maneira como as equipes de especialistas humanos trabalham: planejadores de alto nível, executores de baixo nível e especialistas em interação de interface trabalhando em conjunto.

Agent S：像人类一样操作电脑的开源智能体框架
Diagrama de arquitetura do agente S2: combina um planejador genérico com módulos básicos especializados.

Agent S2 Os principais recursos incluem:

Mistura de aterramento (MoG). Use um conjunto de modelos especializados subjacentes (incluindo extração de informações visuais, textuais e estruturadas) para localizar com precisão os elementos da GUI. Por exemplo, trabalhar com uma planilha pode se concentrar em dados estruturados, enquanto clicar em um botão depende da orientação visual. Esse design desvincula o aterramento do planejamento, reduzindo efetivamente a complexidade do problema e alinhando-o mais com a distribuição atual de treinamento para modelos de inferência genéricos e modelos de base visual especializados.
Planejamento hierárquico proativo (PHP). A estrutura é capaz de adaptar e refinar dinamicamente seus planos em resposta ao feedback do ambiente, em vez de seguir rigidamente um roteiro predefinido. Isso permite que a inteligência seja mais flexível na resposta a situações imprevistas.

Resultados de benchmark: Líder em desempenho entre plataformas

Os dados do documento mostram que Agent S2 No amplamente utilizado OSWorld Um novo recorde de desempenho foi estabelecido em testes de benchmark. OSWorld Ele avalia principalmente a capacidade das inteligências de IA de concluir diversas tarefas, como gerenciamento de arquivos, uso de software e recuperação de informações em um ambiente de sistema operacional simulado.

Agent S：像人类一样操作电脑的开源智能体框架
Comparação da taxa de sucesso da OSWorld Benchmark.

Além disso. Agent S2 Ele também mostra uma boa generalização em outras plataformas:

WindowsAgentArena. Esse é um parâmetro de comparação que se concentra em tarefas de interação complexas no ambiente Windows. Agent S2 O desempenho nesse teste melhorou em 52,81 TP3T em comparação com o Melhor Resultado Aberto (SOTA) anterior.
AndroidWorld. Esse benchmark mede a capacidade de concluir tarefas no sistema operacional móvel Android. Agent S2 O desempenho aqui também supera os resultados anteriores do SOTA, melhorando em 16,51 TP3T.

Agent S：像人类一样操作电脑的开源智能体框架
O desempenho da taxa de sucesso no OSWorld mostra que o Agent S2 supera os métodos anteriores.

Agent S：像人类一样操作电脑的开源智能体框架
Desempenho da taxa de sucesso no WindowsAgentArena.

Inovação em design: sinergias entre o MoG e o PHP

Os principais desafios enfrentados por muitas inteligências computacionais existentes na prática decorrem da compreensão imprecisa dos elementos da interface (ou seja, o problema do "aterramento da base") ou de processos de execução de planos excessivamente rígidos. Agent S2 Essas questões são abordadas por meio de seus dois projetos principais:

Modelagem de base mista (MoG). O mecanismo MoG é capaz de encaminhar tarefas de forma inteligente para o modelo de especialista mais adequado com base nos requisitos de interação atuais. Por exemplo, o reconhecimento e a manipulação de uma célula de planilha eletrônica podem invocar um especialista com base na análise estrutural, enquanto se alterna para um modelo de base visual ao clicar em um botão visualmente distinto. Separar a compreensão básica da interação do planejamento de tarefas de alto nível basicamente divide um problema complexo em dois subproblemas relativamente mais simples e mais fáceis de modelar.
Planejamento ativo (PHP). O módulo PHP permite que as inteligências adaptem continuamente as submetas e os planos de ação em resposta a novas observações no ambiente. Essa adaptação imita o padrão comportamental humano de reavaliação e revisão de planos quando a situação muda durante a execução de uma tarefa.

Agent S：像人类一样操作电脑的开源智能体框架
Exemplo: o agente S2 se autocorrige em uma interação, mudando de um modelo de base visual para um modelo de base textual.

Escalabilidade e recuperação de erros

Foi demonstrado que, em tarefas que exigem a execução de operações de sequência mais longas, o Agent S2 A arquitetura combinatória apresenta melhor escalabilidade do que os modelos monolíticos. Seus recursos dinâmicos de adaptação e autocorreção permitem que eles ajustem suas estratégias quando as ações iniciais não surtem o efeito desejado, melhorando assim a taxa de conclusão de tarefas complexas. Os modelos monolíticos tendem a ser mais propensos a falhas em tarefas sequenciais longas devido a erros cumulativos ou rigidez de planejamento.

Agent S：像人类一样操作电脑的开源智能体框架
Razões pelas quais o Agente S2 mantém seu desempenho em tarefas de séries temporais longas: navegação adaptativa, interação e mecanismos de correção de erros.

Além do ambiente de desktop: desempenho generalizado na plataforma Android

(go ahead and do it) without hesitating Agent S2 O principal alvo de desenvolvimento da Microsoft é a inteligência para ambientes de desktop, mas o design da estrutura mostrou boa generalização para ambientes móveis também. No AndroidWorld O desempenho líder no teste de benchmark comprova a adequação de seus principais conceitos, como MoG e PHP, para diferentes tipos de ambientes de GUI.

Agent S：像人类一样操作电脑的开源智能体框架
O Agente S2 alcança a liderança nos benchmarks de uso de smartphones do AndroidWorld.

Avanços em inteligências modulares

Agent S2 Os resultados do estudo sugerem que o design combinatório não é apenas uma escolha arquitetônica, mas pode ser uma maneira eficaz de criar inteligências que possam operar computadores de maneira robusta e semelhante à humana. Este trabalho abre novas possibilidades para pesquisas futuras em planejamento de IA, compreensão básica de interação (grounding) e coordenação multimodal.

Recomenda-se que os leitores interessados consultem o detalhado Documentos técnicos relevante código aberto.

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Cursor Auto Register: crie e gerencie automaticamente as ferramentas de código aberto da conta do Cursor

Recursos mais recentes de IA # Projeto de código aberto AI Java

5 meses atrás

01.5K

MyMap AI: gere rapidamente fluxogramas e vários diagramas por meio de bate-papo

Recursos mais recentes de IA # Quadro branco de IA com infográfico

4 meses atrás

01.2K

MiniMax-M1 - Modelo de inferência de código aberto da MiniMax

Recursos mais recentes de IA

2 meses atrás

01K

PSHuman: Gere modelos realistas de retratos em 3D, use uma foto para gerar modelos humanos em 3D

Recursos mais recentes de IA # Texto e imagem AI para 3D

8 meses atrás

01.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Agente S: uma estrutura de código aberto para que corpos inteligentes operem computadores como seres humanos

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Funções principais

Operação da interface gráfica do usuário (GUI)

Atribuição de tarefas e planejamento

Aprendendo com a experiência

Operação da função em destaque

Suporte a várias plataformas

Entradas multimodais

Download da base de conhecimento

Configuração avançada

Integração da Pesquisa Perplexica

Modelos personalizados

advertência

cenário do aplicativo

QA

Detalhes técnicos do Agent S2 anunciados: uma estrutura de IA combinatória para operações de computador de uso geral

Visão geral do agente S2: projetos inteligentes combinados

Resultados de benchmark: Líder em desempenho entre plataformas

Inovação em design: sinergias entre o MoG e o PHP

Escalabilidade e recuperação de erros

Além do ambiente de desktop: desempenho generalizado na plataforma Android

Avanços em inteligências modulares

BabelDOC: documentos PDF serão traduzidos para ferramentas bilíngues de código aberto

Echo Memo: uma ferramenta de bookmarking que usa IA para entender e pesquisar conteúdo de mídia social

Artigos relacionados

Cursor Auto Register: crie e gerencie automaticamente as ferramentas de código aberto da conta do Cursor

MyMap AI: gere rapidamente fluxogramas e vários diagramas por meio de bate-papo

MiniMax-M1 - Modelo de inferência de código aberto da MiniMax

PSHuman: Gere modelos realistas de retratos em 3D, use uma foto para gerar modelos humanos em 3D

Sem comentários

Últimas coleções

Artigos mais recentes

Agente S: uma estrutura de código aberto para que corpos inteligentes operem computadores como seres humanos

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Funções principais

Operação da interface gráfica do usuário (GUI)

Atribuição de tarefas e planejamento

Aprendendo com a experiência

Operação da função em destaque

Suporte a várias plataformas

Entradas multimodais

Download da base de conhecimento

Configuração avançada

Integração da Pesquisa Perplexica

Modelos personalizados

advertência

cenário do aplicativo

QA

Detalhes técnicos do Agent S2 anunciados: uma estrutura de IA combinatória para operações de computador de uso geral

Visão geral do agente S2: projetos inteligentes combinados

Resultados de benchmark: Líder em desempenho entre plataformas

Inovação em design: sinergias entre o MoG e o PHP

Escalabilidade e recuperação de erros

Além do ambiente de desktop: desempenho generalizado na plataforma Android

Avanços em inteligências modulares

BabelDOC: documentos PDF serão traduzidos para ferramentas bilíngues de código aberto

Echo Memo: uma ferramenta de bookmarking que usa IA para entender e pesquisar conteúdo de mídia social

Artigos relacionados

Cursor Auto Register: crie e gerencie automaticamente as ferramentas de código aberto da conta do Cursor

MyMap AI: gere rapidamente fluxogramas e vários diagramas por meio de bate-papo

MiniMax-M1 - Modelo de inferência de código aberto da MiniMax

PSHuman: Gere modelos realistas de retratos em 3D, use uma foto para gerar modelos humanos em 3D

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes