Agente S: un marco de código abierto para que los cuerpos inteligentes manejen los ordenadores como humanos
Últimos recursos sobre IAActualizado hace 5 meses Círculo de intercambio de inteligencia artificial 10.9K 00
Introducción general
Agent S es un marco de código abierto desarrollado por Simular AI que permite a las inteligencias manejar ordenadores como si fueran humanos a través de una interfaz gráfica de usuario (GUI). Utiliza un modelo de macrolenguaje multimodal y técnicas de aprendizaje empírico para realizar tareas como navegar por Internet, editar documentos y utilizar software. El proyecto es de código abierto en GitHub y cuenta con una activa comunidad de desarrolladores. El trabajo del Agente S1 ha sido aceptado por el ICLR en 2025, y el Agente S2 se lanzó en marzo de 2025, superando a OpenAI y a Antrópico Es compatible con macOS, Windows y Linux. Es compatible con macOS, Windows y Linux y es adecuado para oficinas automatizadas, pruebas de software e investigación de IA.

Lista de funciones
- Funcionamiento de la interfaz gráfica de usuario (GUI)Ratón y teclado analógicos para interactuar con programas informáticos.
- Asignación de tareas y planificaciónDividir tareas complejas en pequeños pasos y automatizar su ejecución.
- Aprender de la experiencia: Aprender de las tareas históricas para aumentar la eficacia.
- Soporte multiplataformaDisponible en macOS (Paquete de instalación con un solo clic), Windows y Linux.
- Entradas multimodales: Combina imágenes de pantalla y elementos de interfaz para un funcionamiento preciso.
- Personalización de código abiertoEl código fuente y la documentación se proporcionan y pueden ser adaptados libremente por el desarrollador.
- Actualización de la base de conocimientos: Actualización continua de los datos de experiencia en tiempo de ejecución para mejorar la inteligencia.
Utilizar la ayuda
El Agente S es una herramienta de código abierto para desarrolladores que requiere una cierta base de programación para su instalación y uso. A continuación se detallan los pasos y las instrucciones funcionales para ayudar a los usuarios a empezar rápidamente.
Proceso de instalación
- Preparar el entorno
- Instale Python 3.9 a 3.12.
- Instala Git para descargar código.
- Opcional: Prepare una máquina virtual (como VMware) para probar o aislar el entorno.
- Descargar código
- Abre un terminal y ejecútalo:
git clone https://github.com/simular-ai/Agent-S.git
- Vaya al catálogo de proyectos:
cd Agent-S
- Abre un terminal y ejecútalo:
- Instalación de dependencias
- Crear un entorno virtual (recomendado):
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows
- Instale la biblioteca central:
pip install gui-agents
- Configuración de variables de entorno (por ejemplo, claves API):
export OPENAI_API_KEY=<你的密钥> export ANTHROPIC_API_KEY=<你的密钥> export HF_TOKEN=<你的Hugging Face密钥>
- Crear un entorno virtual (recomendado):
- Agente inicial S
- Ejecutar Agente S1 o S2:
agent_s1 # 运行 Agent S1 agent_s2 # 运行 Agent S2
- Una vez iniciado, introduzca la tarea para empezar.
- Ejecutar Agente S1 o S2:
Funciones principales
Funcionamiento de la interfaz gráfica de usuario (GUI)
- Descripción funcional: Simula el funcionamiento humano mediante capturas de pantalla y reconocimiento de la interfaz.
- procedimiento::
- estar en movimiento
agent_s2
. - Introduzca la tarea: "Abra el Bloc de notas y escriba 'hola'".
- Agente S2 Localice el icono del Bloc de notas, haga clic en él para abrirlo e introduzca el texto.
- Pulsa Ctrl+C para detenerte en cualquier momento.
- estar en movimiento
Asignación de tareas y planificación
- Descripción funcionalDesglose las tareas complejas en pequeños pasos y complételas gradualmente.
- procedimiento::
- Escribe: "Enviar un correo electrónico a un amigo".
- El Agente S2 lo hace automáticamente: abre el software de correo, crea un nuevo mensaje, rellena el contenido y pulsa enviar.
- Los usuarios pueden ver los registros de cada paso en el terminal.
Aprender de la experiencia
- Descripción funcional: Registrar el desarrollo de la tarea y optimizar las operaciones de seguimiento.
- procedimiento::
- Una vez completada la misión, la experiencia se guarda en
gui_agents/kb
Carpeta. - Ejecutar de nuevo tareas similares mejorará la eficiencia.
- Los desarrolladores pueden consultar el documento de la base de conocimientos para aprender contenidos.
- Una vez completada la misión, la experiencia se guarda en
Función destacada Operación
Soporte multiplataforma
- Descripción funcionalCompatibilidad con los tres principales sistemas operativos.
- procedimiento::
- Windows requiere la instalación de
pywin32
responder cantandopywinauto
. - macOS Necesario
pyobjc
utilicepip install pyobjc
Instalación. - Comprobación de Linux
pyautogui
compatibilidad, puede ser necesario ajustar los permisos.
- Windows requiere la instalación de
Entradas multimodales
- Descripción funcional: Combine datos de imagen e interfaz para mejorar la precisión operativa.
- procedimiento::
- Escribe: "Busca 'tiempo' en tu navegador".
- El agente S2 analiza la pantalla, encuentra la ventana del navegador e introduce un término de búsqueda.
- Los resultados se muestran automáticamente.
Base de conocimientos Descargar
- Descripción funcionalAgente S2: el agente S2 utiliza una base de conocimientos preentrenada y puede funcionar sin conexión.
- procedimiento::
- Descarga automáticamente la base de conocimientos de GitHub Releases en el primer inicio.
- Ejemplo de descarga manual:
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
- La ruta de la base de conocimientos se encuentra en
kb_data
Carpeta.
Configuración avanzada
Integración Perplexica Búsqueda
- Descripción funcionalMejora de la capacidad de recuperación de conocimiento web del Agente S.
- procedimiento::
- Instale Docker Desktop e inícielo.
- Descargar Perplexica:
cd Perplexica git submodule update --init
- renombrar
sample.config.toml
debido aconfig.toml
Si no está seguro de la clave API, introdúzcala. - Inicie el servicio:
docker compose up -d
- Establezca la URL de Perplexica:
export PERPLEXICA_URL=http://localhost:端口/api/search
Modelos personalizados
- Descripción funcionalSoporte para múltiples modelos de gran tamaño y puntos finales personalizados.
- procedimiento::
- utilizar Claude Modelos:
agent_s2 --model claude-3-7-sonnet-20250219
- Utilice el punto final Cara abrazada:
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
- utilizar Claude Modelos:
advertencia
- La primera ejecución requiere conexión a Internet para descargar las dependencias y la base de conocimientos.
- Los usuarios de Linux evitan los entornos Conda que puedan interferir con el
pyatspi
. - Encontrará documentación detallada en
README.md
responder cantandomodels.md
Medio.
escenario de aplicación
- ofimática
El Agente S rellena automáticamente formularios y envía correos electrónicos, reduciendo el trabajo repetitivo. - pruebas de software
Simule las operaciones de los usuarios y compruebe la estabilidad del software en distintos sistemas. - Investigación sobre IA
Los investigadores lo utilizan para explorar los principios técnicos de la interacción inteligente cuerpo-ordenador.
CONTROL DE CALIDAD
- ¿Cuál es la diferencia entre el Agente S2 y el S1?
S2 es una versión mejorada de S1 con más rendimiento y soporte para más benchmarks como OSWorld y AndroidWorld. - ¿Necesito estar conectado todo el tiempo?
Se requiere acceso a Internet para la primera instalación y descarga de la base de conocimientos, tras lo cual puede ejecutarse sin conexión. - ¿Cómo puedo ponerme en contacto con el servicio de asistencia comunitaria?
Únase al servidor Discord (https://discord.gg/E2XfsK9fPV) o envíe una incidencia a GitHub.
Anuncio de los detalles técnicos de Agent S2: un marco de IA combinatoria para operaciones informáticas de propósito general
La creación de inteligencias capaces de utilizar los ordenadores con tanta destreza como los humanos es uno de los retos clave en el camino hacia la inteligencia artificial de propósito general (IAG). Estas tareas abarcan una amplia gama de escenarios, desde la realización de tareas numéricas abiertas hasta la navegación por aplicaciones desconocidas a través de interfaces gráficas de usuario (GUI) con espacios de problemas que son grandes, ruidosos y muy dinámicos. Recientemente, un artículo sobre Agent S2
Publicación oficial del documento técnico de la investigación, que propone un marco modular y consigue un rendimiento líder en varias pruebas comparativas de uso informático.
Agent S2
El código asociado a esta versión ya se ha publicado anteriormente en código abierto. El documento técnico publicado (disponible en arXiv (Get) ofrece una visión en profundidad de los conceptos básicos y el diseño arquitectónico del sistema. Simular AI, el equipo de investigación que está detrás del sistema, también ha publicado previamente un artículo introductorio para lectores no especializados.
Visión general del agente S2: diseños inteligentes combinados
Agent S2
La filosofía central del diseño consiste en descomponer las tareas complejas de funcionamiento del ordenador, sin depender de un único y gran modelo para realizar todo el trabajo de planificación, acción y comprensión de la interacción en pantalla, sino asignando estas responsabilidades a un módulo de planificación generalista y a un módulo especializado de ejecución/comprensión (especialistas). Esta arquitectura combinada pretende imitar la forma de trabajar de los equipos de expertos humanos: planificadores de alto nivel, ejecutores de bajo nivel y especialistas en interacción de interfaces trabajando en tándem.
Diagrama de arquitectura del Agente S2: combina un planificador genérico con módulos base especializados.
Agent S2
Las características clave incluyen:
- Mezcla de puesta a tierra (MoG). Utilizar un conjunto de modelos expertos subyacentes (incluida la extracción de información visual, textual y estructurada) para localizar con precisión los elementos de la interfaz gráfica de usuario. Por ejemplo, trabajar con una hoja de cálculo puede centrarse en datos estructurados, mientras que pulsar un botón depende de la orientación visual. Este diseño desvincula el Grounding de la planificación, lo que reduce eficazmente la complejidad del problema y lo hace más acorde con la actual distribución del entrenamiento para modelos de inferencia genéricos y modelos de base visual especializados.
- Planificación jerárquica proactiva (PHP). El marco es capaz de ajustar y refinar dinámicamente sus planes en respuesta a la información del entorno, en lugar de seguir rígidamente un guión predeterminado. Esto permite a la inteligencia responder con mayor flexibilidad a situaciones imprevistas.
Resultados de la evaluación comparativa: Líder en rendimiento multiplataforma
Los datos del documento muestran que Agent S2
En el ampliamente utilizado OSWorld
Se ha establecido un nuevo récord de rendimiento en las pruebas comparativas. OSWorld
Evalúa principalmente la capacidad de las inteligencias de IA para completar diversas tareas, como la gestión de archivos, el uso de software y la recuperación de información en un entorno de sistema operativo simulado.
Comparación de la tasa de éxito de OSWorld Benchmark.
Además. Agent S2
También muestra una buena generalización en otras plataformas:
- WindowsAgentArena. Se trata de un punto de referencia centrado en tareas de interacción complejas en el entorno Windows.
Agent S2
El rendimiento en esta prueba ha mejorado en 52,81 TP3T en comparación con el anterior Mejor Resultado Abierto (SOTA). - AndroidWorld. Este benchmark mide la capacidad de completar tareas en el sistema operativo móvil Android.
Agent S2
también supera los resultados anteriores de SOTA, con una mejora de 16,51 TP3T.
El rendimiento de la tasa de éxito en OSWorld muestra que el Agente S2 supera a los métodos anteriores.
Rendimiento de la tasa de éxito en WindowsAgentArena.
Innovación en el diseño: sinergias entre el Ministerio de Gobernación y el PSP
En la práctica, los principales retos a los que se enfrentan muchas de las inteligencias computacionales existentes se derivan de una comprensión imprecisa de los elementos de la interfaz (es decir, el problema del "fundamento de base") o de procesos de ejecución de planes demasiado rígidos. Agent S2
Estas cuestiones se abordan a través de sus dos diseños básicos:
- Modelización de base mixta (MdB). El mecanismo MoG es capaz de dirigir de forma inteligente las tareas al modelo experto más adecuado en función de los requisitos de interacción del momento. Por ejemplo, al reconocer y manipular una celda de una hoja de cálculo se puede recurrir a un experto basado en el análisis estructural, mientras que al pulsar un botón visualmente distintivo se pasa a un modelo visual de base. Separar la comprensión básica de la interacción de la planificación de tareas de alto nivel divide un problema complejo en dos subproblemas relativamente más sencillos y fáciles de modelar.
- Planificación proactiva (PHP). El módulo PHP permite a las inteligencias adaptar continuamente subobjetivos y planes de acción en respuesta a nuevas observaciones del entorno. Esta adaptación imita el patrón de comportamiento humano de reevaluar y revisar los planes cuando cambia la situación al realizar una tarea.
Ejemplo: El agente S2 se autocorrige en una interacción, pasando de un modelo base visual a un modelo base textual.
Escalabilidad y recuperación de errores
Se ha demostrado que en tareas que requieren la ejecución de operaciones de secuencia más larga, el Agent S2
La arquitectura combinatoria presenta mejor escalabilidad que los modelos monolíticos. Sus capacidades dinámicas de adaptación y autocorrección les permiten ajustar sus estrategias cuando las acciones iniciales no tienen el efecto deseado, mejorando así la tasa de finalización de tareas complejas. Los modelos monolíticos tienden a ser más propensos al fracaso en tareas secuenciales largas debido a errores acumulativos o a la rigidez de la planificación.
Razones por las que el Agente S2 mantiene su rendimiento en tareas de series temporales largas: navegación adaptativa, interacción y mecanismos de corrección de errores.
Más allá del entorno de escritorio: rendimiento generalizado en la plataforma Android
(adelante, hazlo) sin dudarlo Agent S2
es la inteligencia para ordenadores de sobremesa, pero el diseño de su marco de trabajo ha demostrado una buena generalización también a entornos móviles. En el AndroidWorld
El rendimiento líder en la prueba comparativa demuestra la idoneidad de sus conceptos básicos, como MoG y PHP, para distintos tipos de entornos GUI.
El Agente S2 alcanza el liderazgo en las referencias de uso de smartphones de AndroidWorld.
Avances en las inteligencias modulares
Agent S2
Los resultados del estudio sugieren que el diseño combinatorio no es sólo una opción arquitectónica, sino que puede ser una forma eficaz de construir inteligencias capaces de manejar ordenadores de forma robusta y similar a la humana. Este trabajo abre nuevas posibilidades para futuras investigaciones en planificación de IA, comprensión básica de la interacción (grounding) y coordinación multimodal.
Se recomienda a los lectores interesados que consulten la Documentos técnicos relevante código abierto.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...