Agente S: un marco de código abierto para que los cuerpos inteligentes manejen los ordenadores como humanos

Introducción general

Agent S es un marco de código abierto desarrollado por Simular AI que permite a las inteligencias manejar ordenadores como si fueran humanos a través de una interfaz gráfica de usuario (GUI). Utiliza un modelo de macrolenguaje multimodal y técnicas de aprendizaje empírico para realizar tareas como navegar por Internet, editar documentos y utilizar software. El proyecto es de código abierto en GitHub y cuenta con una activa comunidad de desarrolladores. El trabajo del Agente S1 ha sido aceptado por el ICLR en 2025, y el Agente S2 se lanzó en marzo de 2025, superando a OpenAI y a Antrópico Es compatible con macOS, Windows y Linux. Es compatible con macOS, Windows y Linux y es adecuado para oficinas automatizadas, pruebas de software e investigación de IA.

Agent S:像人类一样操作电脑的开源智能体框架

 

Lista de funciones

  • Funcionamiento de la interfaz gráfica de usuario (GUI)Ratón y teclado analógicos para interactuar con programas informáticos.
  • Asignación de tareas y planificaciónDividir tareas complejas en pequeños pasos y automatizar su ejecución.
  • Aprender de la experiencia: Aprender de las tareas históricas para aumentar la eficacia.
  • Soporte multiplataformaDisponible en macOS (Paquete de instalación con un solo clic), Windows y Linux.
  • Entradas multimodales: Combina imágenes de pantalla y elementos de interfaz para un funcionamiento preciso.
  • Personalización de código abiertoEl código fuente y la documentación se proporcionan y pueden ser adaptados libremente por el desarrollador.
  • Actualización de la base de conocimientos: Actualización continua de los datos de experiencia en tiempo de ejecución para mejorar la inteligencia.

 

Utilizar la ayuda

El Agente S es una herramienta de código abierto para desarrolladores que requiere una cierta base de programación para su instalación y uso. A continuación se detallan los pasos y las instrucciones funcionales para ayudar a los usuarios a empezar rápidamente.

Proceso de instalación

  1. Preparar el entorno
    • Instale Python 3.9 a 3.12.
    • Instala Git para descargar código.
    • Opcional: Prepare una máquina virtual (como VMware) para probar o aislar el entorno.
  2. Descargar código
    • Abre un terminal y ejecútalo:
      git clone https://github.com/simular-ai/Agent-S.git
      
    • Vaya al catálogo de proyectos:
      cd Agent-S
      
  3. Instalación de dependencias
    • Crear un entorno virtual (recomendado):
      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • Instale la biblioteca central:
      pip install gui-agents
      
    • Configuración de variables de entorno (por ejemplo, claves API):
      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. Agente inicial S
    • Ejecutar Agente S1 o S2:
      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • Una vez iniciado, introduzca la tarea para empezar.

Funciones principales

Funcionamiento de la interfaz gráfica de usuario (GUI)

  • Descripción funcional: Simula el funcionamiento humano mediante capturas de pantalla y reconocimiento de la interfaz.
  • procedimiento::
    1. estar en movimiento agent_s2.
    2. Introduzca la tarea: "Abra el Bloc de notas y escriba 'hola'".
    3. Agente S2 Localice el icono del Bloc de notas, haga clic en él para abrirlo e introduzca el texto.
    4. Pulsa Ctrl+C para detenerte en cualquier momento.

Asignación de tareas y planificación

  • Descripción funcionalDesglose las tareas complejas en pequeños pasos y complételas gradualmente.
  • procedimiento::
    1. Escribe: "Enviar un correo electrónico a un amigo".
    2. El Agente S2 lo hace automáticamente: abre el software de correo, crea un nuevo mensaje, rellena el contenido y pulsa enviar.
    3. Los usuarios pueden ver los registros de cada paso en el terminal.

Aprender de la experiencia

  • Descripción funcional: Registrar el desarrollo de la tarea y optimizar las operaciones de seguimiento.
  • procedimiento::
    1. Una vez completada la misión, la experiencia se guarda en gui_agents/kb Carpeta.
    2. Ejecutar de nuevo tareas similares mejorará la eficiencia.
    3. Los desarrolladores pueden consultar el documento de la base de conocimientos para aprender contenidos.

Función destacada Operación

Soporte multiplataforma

  • Descripción funcionalCompatibilidad con los tres principales sistemas operativos.
  • procedimiento::
    1. Windows requiere la instalación de pywin32 responder cantando pywinauto.
    2. macOS Necesario pyobjcutilice pip install pyobjc Instalación.
    3. Comprobación de Linux pyautogui compatibilidad, puede ser necesario ajustar los permisos.

Entradas multimodales

  • Descripción funcional: Combine datos de imagen e interfaz para mejorar la precisión operativa.
  • procedimiento::
    1. Escribe: "Busca 'tiempo' en tu navegador".
    2. El agente S2 analiza la pantalla, encuentra la ventana del navegador e introduce un término de búsqueda.
    3. Los resultados se muestran automáticamente.

Base de conocimientos Descargar

  • Descripción funcionalAgente S2: el agente S2 utiliza una base de conocimientos preentrenada y puede funcionar sin conexión.
  • procedimiento::
    1. Descarga automáticamente la base de conocimientos de GitHub Releases en el primer inicio.
    2. Ejemplo de descarga manual:
      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. La ruta de la base de conocimientos se encuentra en kb_data Carpeta.

Configuración avanzada

Integración Perplexica Búsqueda

  • Descripción funcionalMejora de la capacidad de recuperación de conocimiento web del Agente S.
  • procedimiento::
    1. Instale Docker Desktop e inícielo.
    2. Descargar Perplexica:
      cd Perplexica
      git submodule update --init
      
    3. renombrar sample.config.toml debido a config.tomlSi no está seguro de la clave API, introdúzcala.
    4. Inicie el servicio:
      docker compose up -d
      
    5. Establezca la URL de Perplexica:
      export PERPLEXICA_URL=http://localhost:端口/api/search
      

Modelos personalizados

  • Descripción funcionalSoporte para múltiples modelos de gran tamaño y puntos finales personalizados.
  • procedimiento::
    1. utilizar Claude Modelos:
      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. Utilice el punto final Cara abrazada:
      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      

advertencia

  • La primera ejecución requiere conexión a Internet para descargar las dependencias y la base de conocimientos.
  • Los usuarios de Linux evitan los entornos Conda que puedan interferir con el pyatspi.
  • Encontrará documentación detallada en README.md responder cantando models.md Medio.

 

escenario de aplicación

  1. ofimática
    El Agente S rellena automáticamente formularios y envía correos electrónicos, reduciendo el trabajo repetitivo.
  2. pruebas de software
    Simule las operaciones de los usuarios y compruebe la estabilidad del software en distintos sistemas.
  3. Investigación sobre IA
    Los investigadores lo utilizan para explorar los principios técnicos de la interacción inteligente cuerpo-ordenador.

 

CONTROL DE CALIDAD

  1. ¿Cuál es la diferencia entre el Agente S2 y el S1?
    S2 es una versión mejorada de S1 con más rendimiento y soporte para más benchmarks como OSWorld y AndroidWorld.
  2. ¿Necesito estar conectado todo el tiempo?
    Se requiere acceso a Internet para la primera instalación y descarga de la base de conocimientos, tras lo cual puede ejecutarse sin conexión.
  3. ¿Cómo puedo ponerme en contacto con el servicio de asistencia comunitaria?
    Únase al servidor Discord (https://discord.gg/E2XfsK9fPV) o envíe una incidencia a GitHub.

 

Anuncio de los detalles técnicos de Agent S2: un marco de IA combinatoria para operaciones informáticas de propósito general

La creación de inteligencias capaces de utilizar los ordenadores con tanta destreza como los humanos es uno de los retos clave en el camino hacia la inteligencia artificial de propósito general (IAG). Estas tareas abarcan una amplia gama de escenarios, desde la realización de tareas numéricas abiertas hasta la navegación por aplicaciones desconocidas a través de interfaces gráficas de usuario (GUI) con espacios de problemas que son grandes, ruidosos y muy dinámicos. Recientemente, un artículo sobre Agent S2 Publicación oficial del documento técnico de la investigación, que propone un marco modular y consigue un rendimiento líder en varias pruebas comparativas de uso informático.

Agent S2 El código asociado a esta versión ya se ha publicado anteriormente en código abierto. El documento técnico publicado (disponible en arXiv (Get) ofrece una visión en profundidad de los conceptos básicos y el diseño arquitectónico del sistema. Simular AI, el equipo de investigación que está detrás del sistema, también ha publicado previamente un artículo introductorio para lectores no especializados.

Visión general del agente S2: diseños inteligentes combinados

Agent S2 La filosofía central del diseño consiste en descomponer las tareas complejas de funcionamiento del ordenador, sin depender de un único y gran modelo para realizar todo el trabajo de planificación, acción y comprensión de la interacción en pantalla, sino asignando estas responsabilidades a un módulo de planificación generalista y a un módulo especializado de ejecución/comprensión (especialistas). Esta arquitectura combinada pretende imitar la forma de trabajar de los equipos de expertos humanos: planificadores de alto nivel, ejecutores de bajo nivel y especialistas en interacción de interfaces trabajando en tándem.

Agent S:像人类一样操作电脑的开源智能体框架
Diagrama de arquitectura del Agente S2: combina un planificador genérico con módulos base especializados.

Agent S2 Las características clave incluyen:

  • Mezcla de puesta a tierra (MoG). Utilizar un conjunto de modelos expertos subyacentes (incluida la extracción de información visual, textual y estructurada) para localizar con precisión los elementos de la interfaz gráfica de usuario. Por ejemplo, trabajar con una hoja de cálculo puede centrarse en datos estructurados, mientras que pulsar un botón depende de la orientación visual. Este diseño desvincula el Grounding de la planificación, lo que reduce eficazmente la complejidad del problema y lo hace más acorde con la actual distribución del entrenamiento para modelos de inferencia genéricos y modelos de base visual especializados.
  • Planificación jerárquica proactiva (PHP). El marco es capaz de ajustar y refinar dinámicamente sus planes en respuesta a la información del entorno, en lugar de seguir rígidamente un guión predeterminado. Esto permite a la inteligencia responder con mayor flexibilidad a situaciones imprevistas.

Resultados de la evaluación comparativa: Líder en rendimiento multiplataforma

Los datos del documento muestran que Agent S2 En el ampliamente utilizado OSWorld Se ha establecido un nuevo récord de rendimiento en las pruebas comparativas. OSWorld Evalúa principalmente la capacidad de las inteligencias de IA para completar diversas tareas, como la gestión de archivos, el uso de software y la recuperación de información en un entorno de sistema operativo simulado.

Agent S:像人类一样操作电脑的开源智能体框架
Comparación de la tasa de éxito de OSWorld Benchmark.

Además. Agent S2 También muestra una buena generalización en otras plataformas:

  • WindowsAgentArena. Se trata de un punto de referencia centrado en tareas de interacción complejas en el entorno Windows. Agent S2 El rendimiento en esta prueba ha mejorado en 52,81 TP3T en comparación con el anterior Mejor Resultado Abierto (SOTA).
  • AndroidWorld. Este benchmark mide la capacidad de completar tareas en el sistema operativo móvil Android. Agent S2 también supera los resultados anteriores de SOTA, con una mejora de 16,51 TP3T.

Agent S:像人类一样操作电脑的开源智能体框架
El rendimiento de la tasa de éxito en OSWorld muestra que el Agente S2 supera a los métodos anteriores.

Agent S:像人类一样操作电脑的开源智能体框架
Rendimiento de la tasa de éxito en WindowsAgentArena.

Innovación en el diseño: sinergias entre el Ministerio de Gobernación y el PSP

En la práctica, los principales retos a los que se enfrentan muchas de las inteligencias computacionales existentes se derivan de una comprensión imprecisa de los elementos de la interfaz (es decir, el problema del "fundamento de base") o de procesos de ejecución de planes demasiado rígidos. Agent S2 Estas cuestiones se abordan a través de sus dos diseños básicos:

  • Modelización de base mixta (MdB). El mecanismo MoG es capaz de dirigir de forma inteligente las tareas al modelo experto más adecuado en función de los requisitos de interacción del momento. Por ejemplo, al reconocer y manipular una celda de una hoja de cálculo se puede recurrir a un experto basado en el análisis estructural, mientras que al pulsar un botón visualmente distintivo se pasa a un modelo visual de base. Separar la comprensión básica de la interacción de la planificación de tareas de alto nivel divide un problema complejo en dos subproblemas relativamente más sencillos y fáciles de modelar.
  • Planificación proactiva (PHP). El módulo PHP permite a las inteligencias adaptar continuamente subobjetivos y planes de acción en respuesta a nuevas observaciones del entorno. Esta adaptación imita el patrón de comportamiento humano de reevaluar y revisar los planes cuando cambia la situación al realizar una tarea.

Agent S:像人类一样操作电脑的开源智能体框架
Ejemplo: El agente S2 se autocorrige en una interacción, pasando de un modelo base visual a un modelo base textual.

Escalabilidad y recuperación de errores

Se ha demostrado que en tareas que requieren la ejecución de operaciones de secuencia más larga, el Agent S2 La arquitectura combinatoria presenta mejor escalabilidad que los modelos monolíticos. Sus capacidades dinámicas de adaptación y autocorrección les permiten ajustar sus estrategias cuando las acciones iniciales no tienen el efecto deseado, mejorando así la tasa de finalización de tareas complejas. Los modelos monolíticos tienden a ser más propensos al fracaso en tareas secuenciales largas debido a errores acumulativos o a la rigidez de la planificación.

Agent S:像人类一样操作电脑的开源智能体框架
Razones por las que el Agente S2 mantiene su rendimiento en tareas de series temporales largas: navegación adaptativa, interacción y mecanismos de corrección de errores.

Más allá del entorno de escritorio: rendimiento generalizado en la plataforma Android

(adelante, hazlo) sin dudarlo Agent S2 es la inteligencia para ordenadores de sobremesa, pero el diseño de su marco de trabajo ha demostrado una buena generalización también a entornos móviles. En el AndroidWorld El rendimiento líder en la prueba comparativa demuestra la idoneidad de sus conceptos básicos, como MoG y PHP, para distintos tipos de entornos GUI.

Agent S:像人类一样操作电脑的开源智能体框架
El Agente S2 alcanza el liderazgo en las referencias de uso de smartphones de AndroidWorld.

Avances en las inteligencias modulares

Agent S2 Los resultados del estudio sugieren que el diseño combinatorio no es sólo una opción arquitectónica, sino que puede ser una forma eficaz de construir inteligencias capaces de manejar ordenadores de forma robusta y similar a la humana. Este trabajo abre nuevas posibilidades para futuras investigaciones en planificación de IA, comprensión básica de la interacción (grounding) y coordinación multimodal.

Se recomienda a los lectores interesados que consulten la Documentos técnicos relevante código abierto.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...