Агент S: платформа с открытым исходным кодом для интеллектуальных органов, позволяющая управлять компьютерами как людьми
Общее введение
Agent S - это фреймворк с открытым исходным кодом, разработанный компанией Simular AI, который позволяет интеллектам управлять компьютерами, как людьми, с помощью графического интерфейса пользователя (GUI). Он использует мультимодальную модель макроязыка и эмпирические методы обучения для выполнения таких задач, как просмотр веб-страниц, редактирование документов и использование программного обеспечения. Проект находится в открытом доступе на GitHub и имеет активное сообщество разработчиков. Доклад Агента S1 был принят ICLR в 2025 году, а Агент S2 был выпущен в марте 2025 года, опередив OpenAI и Антропология Он поддерживает macOS, Windows и Linux. Он поддерживает macOS, Windows и Linux и подходит для автоматизированных офисов, тестирования программного обеспечения и исследований в области искусственного интеллекта.

Список функций
- Работа с графическим интерфейсом пользователя (GUI): Аналоговая мышь и клавиатура для взаимодействия с компьютерными программами.
- Постановка задач и планирование: Разделите сложные задачи на мелкие шаги и автоматизируйте их выполнение.
- Изучение опыта: Обучение на основе исторических задач для повышения эффективности.
- Поддержка кросс-платформы: Доступно на macOS (Пакет для установки одним щелчком мыши), Windows и Linux.
- Мультимодальные входы: Сочетайте изображения на экране и элементы интерфейса для точного управления.
- Персонализация с открытым исходным кодом: Исходный код и документация предоставляются и могут быть свободно адаптированы разработчиком.
- Обновление базы знаний: Постоянное обновление данных об опыте во время работы для повышения интеллектуальности.
Использование помощи
Agent S - это инструмент с открытым исходным кодом для разработчиков, для установки и использования которого требуется определенная основа программирования. Ниже приведены подробные шаги и функциональные инструкции, которые помогут пользователям быстро начать работу.
Процесс установки
- Подготовка среды
- Установите Python с 3.9 по 3.12.
- Установите Git для загрузки кода.
- Дополнительно: подготовьте виртуальную машину (например, VMware) для тестирования или изоляции среды.
- Код загрузки
- Откройте терминал и запустите его:
git clone https://github.com/simular-ai/Agent-S.git
- Перейдите в каталог проектов:
cd Agent-S
- Откройте терминал и запустите его:
- Установка зависимостей
- Создайте виртуальную среду (рекомендуется):
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows
- Установите библиотеку ядра:
pip install gui-agents
- Установка переменных окружения (например, ключей API):
export OPENAI_API_KEY=<你的密钥> export ANTHROPIC_API_KEY=<你的密钥> export HF_TOKEN=<你的Hugging Face密钥>
- Создайте виртуальную среду (рекомендуется):
- Стартовый агент S
- Запустите Агент S1 или S2:
agent_s1 # 运行 Agent S1 agent_s2 # 运行 Agent S2
- После запуска введите задание, чтобы начать работу.
- Запустите Агент S1 или S2:
Основные функции
Работа с графическим интерфейсом пользователя (GUI)
- Функциональное описание: Имитация работы человека с помощью снимков экрана и распознавания интерфейса.
- процедура::
- быть в движении
agent_s2
. - Введите задание: "Откройте блокнот и введите 'hello'".
- Агент S2 Найдите значок блокнота, щелкните по нему, чтобы открыть, а затем введите свой текст.
- Нажмите Ctrl+C, чтобы остановиться в любой момент.
- быть в движении
Постановка задач и планирование
- Функциональное описаниеРазбивайте сложные задачи на мелкие шаги и выполняйте их постепенно.
- процедура::
- Введите "Отправить письмо другу".
- Агент S2 выполняет это автоматически: откройте почтовую программу, создайте новое сообщение, заполните его содержимое и нажмите кнопку "Отправить".
- Пользователи могут просматривать журналы для каждого шага на терминале.
Изучение опыта
- Функциональное описание: Записывайте ход выполнения задания и оптимизируйте последующие операции.
- процедура::
- После выполнения квеста опыт сохраняется в
gui_agents/kb
Папка. - Повторное выполнение аналогичных задач повысит эффективность.
- Разработчики могут обратиться к документу базы знаний, чтобы ознакомиться с содержанием обучения.
- После выполнения квеста опыт сохраняется в
Функциональное управление
Поддержка кросс-платформы
- Функциональное описание: Поддержка трех основных операционных систем.
- процедура::
- Windows требует установки
pywin32
ответить пениемpywinauto
. - Требуется macOS
pyobjc
использоватьpip install pyobjc
Установка. - Проверка Linux
pyautogui
совместимость, может потребоваться корректировка разрешений.
- Windows требует установки
Мультимодальные входы
- Функциональное описание: Сочетание изображений и данных интерфейса для повышения точности работы.
- процедура::
- Введите: "Поиск "погода" в вашем браузере".
- Агент S2 анализирует экран, находит окно браузера и вводит поисковый запрос.
- Результаты отображаются автоматически.
База знаний Скачать
- Функциональное описаниеАгент S2 использует предварительно обученную базу знаний и поддерживает работу в автономном режиме.
- процедура::
- Автоматически загружает базу знаний с GitHub Releases при первом запуске.
- Пример загрузки руководства:
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
- Путь к базе знаний находится в
kb_data
Папка.
Расширенная конфигурация
Интеграция Perplexica Search
- Функциональное описание: Расширение возможностей агента S по поиску знаний в Интернете.
- процедура::
- Установите Docker Desktop и запустите его.
- Скачать Perplexica:
cd Perplexica git submodule update --init
- переименовать
sample.config.toml
из-заconfig.toml
Если вы не уверены в ключе API, введите его. - Начните обслуживание:
docker compose up -d
- Установите URL-адрес Perplexica:
export PERPLEXICA_URL=http://localhost:端口/api/search
Пользовательские модели
- Функциональное описание: Поддержка нескольких больших моделей и пользовательских конечных точек.
- процедура::
- пользоваться Клод Модели:
agent_s2 --model claude-3-7-sonnet-20250219
- Используйте конечную точку "Обнимающееся лицо":
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
- пользоваться Клод Модели:
предостережение
- Для первого запуска требуется подключение к Интернету для загрузки зависимостей и базы знаний.
- Пользователи Linux избегают окружения Conda, которое может помешать
pyatspi
. - Подробная документация доступна по адресу
README.md
ответить пениемmodels.md
Средний.
сценарий применения
- автоматизация офиса
Agent S автоматически заполняет формы и отправляет электронные письма, сокращая количество повторяющейся работы. - тестирование программного обеспечения
Моделируйте действия пользователей и проверяйте стабильность работы программного обеспечения на различных системах. - Исследование искусственного интеллекта
Исследователи используют его для изучения технических принципов интеллектуального взаимодействия тела и компьютера.
QA
- В чем разница между агентом S2 и S1?
S2 - это обновленная версия S1 с большей производительностью и поддержкой большего количества бенчмарков, таких как OSWorld и AndroidWorld. - Нужно ли мне постоянно быть на связи?
Доступ к Интернету требуется для первой установки и загрузки базы знаний, после чего ее можно запускать в автономном режиме. - Как связаться со службой поддержки сообщества?
Присоединяйтесь к серверу Discord (https://discord.gg/E2XfsK9fPV) или отправьте проблему на GitHub.
Анонсированы технические подробности Agent S2: комбинаторный ИИ-фреймворк для компьютерных операций общего назначения
Создание интеллекта, способного использовать компьютеры так же умело, как человек, - одна из ключевых задач на пути к созданию искусственного интеллекта общего назначения (ИИО). Такие задачи охватывают широкий спектр сценариев - от выполнения открытых числовых задач до навигации по незнакомым приложениям с помощью графических пользовательских интерфейсов (GUI) с проблемными пространствами, которые являются большими, шумными и очень динамичными. Недавно была опубликована статья о Agent S2
Официальный релиз технического документа исследования, в котором предлагается модульная структура и достигается лидирующая производительность в нескольких компьютерных бенчмарках.
Agent S2
Код, связанный с этим выпуском, ранее был открыт. Выпущенный технический документ (доступен по адресу arXiv (Get) подробно рассматривает основные концепции и архитектурный дизайн системы. Simular AI, исследовательская группа, создавшая эту систему, также ранее опубликовала вводную статью для неспециалистов.
Обзор агента S2: комбинированные интеллектуальные конструкции
Agent S2
Основная философия дизайна заключается в декомпозиции сложных компьютерных задач, не полагаясь на одну большую модель для выполнения всей работы по планированию, действию и пониманию взаимодействия с экраном, а распределяя эти обязанности между модулем планирования общего назначения и специализированным модулем исполнения/понимания (специалистами). Такая комбинированная архитектура призвана имитировать работу команд человеческих экспертов: высокоуровневые планировщики, низкоуровневые исполнители и специалисты по взаимодействию с интерфейсом работают в тандеме.
Схема архитектуры агента S2: объединение общего планировщика со специализированными базовыми модулями.
Agent S2
Ключевые особенности включают:
- Смесь заземления (MoG). Используйте набор базовых экспертных моделей (включая извлечение визуальной, текстовой и структурированной информации) для точного определения местоположения элементов графического интерфейса пользователя. Например, работа с электронной таблицей может быть сфокусирована на структурированных данных, в то время как нажатие кнопки зависит от визуальной ориентации. Такая конструкция позволяет отделить обоснование от планирования, эффективно снижая сложность задачи и приводя ее в соответствие с текущим распределением обучения для общих моделей умозаключений и специализированных визуальных базовых моделей.
- Проактивное иерархическое планирование (PHP). Система способна динамически корректировать и уточнять свои планы в ответ на обратную связь от окружающей среды, а не жестко следовать заранее заданному сценарию. Это позволяет интеллекту быть более гибким в реагировании на непредвиденные ситуации.
Результаты бенчмарка: лидер кросс-платформенной производительности
Данные, приведенные в статье, показывают, что Agent S2
В широко используемом OSWorld
В ходе эталонных испытаний был установлен новый рекорд производительности. OSWorld
В основном он оценивает способность искусственного интеллекта выполнять различные задачи, такие как управление файлами, использование программного обеспечения и поиск информации в симулированной среде операционной системы.
Сравнение успешных показателей OSWorld Benchmark.
Кроме того. Agent S2
Он также демонстрирует хорошую обобщенность на других платформах:
- WindowsAgentArena. Это бенчмарк, ориентированный на сложные задачи взаимодействия в среде Windows.
Agent S2
Производительность в этом тесте улучшилась на 52,81 TP3T по сравнению с предыдущим результатом Best Open Result (SOTA). - AndroidWorld. Этот бенчмарк измеряет способность выполнять задачи на мобильной операционной системе Android.
Agent S2
Здесь производительность также превосходит предыдущие результаты SOTA с улучшением на 16,51 TP3T.
Показатели успешности в OSWorld свидетельствуют о том, что Agent S2 превосходит предыдущие методы.
Показатели успешности на WindowsAgentArena.
Инновационный дизайн: синергия между МГ и PHP
Основные проблемы, с которыми сталкиваются многие существующие компьютерные интеллекты на практике, связаны с неточным пониманием элементов интерфейса (т.е. с проблемой "заземления базы") или с чрезмерно жесткими процессами выполнения плана. Agent S2
Эти вопросы решаются с помощью двух основных разработок:
- Моделирование на смешанной основе (MoG). Механизм MoG способен интеллектуально направлять задачи к наиболее подходящей экспертной модели в зависимости от текущих требований к взаимодействию. Например, распознавание и манипулирование ячейкой электронной таблицы может вызвать эксперта, основанного на структурном анализе, в то время как при нажатии на визуально заметную кнопку происходит переключение на визуальную базовую модель. Разделение базового понимания взаимодействия и высокоуровневого планирования задач, по сути, разбивает сложную проблему на две относительно более простые и удобные для моделирования подпроблемы.
- Проактивное планирование (PHP). Модуль PHP позволяет интеллекту постоянно адаптировать подцели и планы действий в ответ на новые наблюдения в окружающей среде. Эта адаптация имитирует человеческую поведенческую модель переоценки и пересмотра планов при изменении ситуации во время выполнения задачи.
Пример: агент S2 самокорректируется в процессе взаимодействия, переключаясь с визуальной базовой модели на текстовую.
Масштабируемость и восстановление после ошибок
Было показано, что в задачах, требующих выполнения более длинных последовательностей операций, Agent S2
Комбинаторная архитектура демонстрирует лучшую масштабируемость по сравнению с монолитными моделями. Их динамические адаптивные и самокорректирующиеся возможности позволяют им корректировать свои стратегии, когда первоначальные действия не приносят желаемого эффекта, что повышает скорость выполнения сложных задач. Монолитные модели более склонны к сбоям при выполнении длинных последовательных задач из-за кумулятивных ошибок или жесткости планирования.
Причины, по которым агент S2 сохраняет свою производительность в задачах с длительным временем выполнения: адаптивная навигация, взаимодействие и механизмы исправления ошибок.
За пределами настольной среды: обобщенная производительность на платформе Android
(действуйте и делайте) без колебаний Agent S2
Основным объектом разработки является интеллект для настольных систем, но конструкция фреймворка показала хорошую обобщенность и для мобильных сред. В AndroidWorld
Лидирующие показатели в бенчмарк-тесте доказывают пригодность основных концепций, таких как MoG и PHP, для различных типов графических интерфейсов.
Agent S2 достигает лидерства в рейтинге использования смартфонов AndroidWorld.
Достижения в области модульного интеллекта
Agent S2
Результаты исследования показывают, что комбинаторика - это не только архитектурный выбор, но и эффективный способ создания интеллектов, способных управлять компьютерами в надежной, человекоподобной манере. Эта работа открывает новые возможности для будущих исследований в области планирования ИИ, базового понимания взаимодействия (grounding) и мультимодальной координации.
Заинтересованным читателям рекомендуется ознакомиться с подробным Технические документы соответствующий открытый исходный код.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...