Агент S: платформа с открытым исходным кодом для интеллектуальных органов, позволяющая управлять компьютерами как людьми

Общее введение

Agent S - это фреймворк с открытым исходным кодом, разработанный компанией Simular AI, который позволяет интеллектам управлять компьютерами, как людьми, с помощью графического интерфейса пользователя (GUI). Он использует мультимодальную модель макроязыка и эмпирические методы обучения для выполнения таких задач, как просмотр веб-страниц, редактирование документов и использование программного обеспечения. Проект находится в открытом доступе на GitHub и имеет активное сообщество разработчиков. Доклад Агента S1 был принят ICLR в 2025 году, а Агент S2 был выпущен в марте 2025 года, опередив OpenAI и Антропология Он поддерживает macOS, Windows и Linux. Он поддерживает macOS, Windows и Linux и подходит для автоматизированных офисов, тестирования программного обеспечения и исследований в области искусственного интеллекта.

Agent S:像人类一样操作电脑的开源智能体框架

 

Список функций

  • Работа с графическим интерфейсом пользователя (GUI): Аналоговая мышь и клавиатура для взаимодействия с компьютерными программами.
  • Постановка задач и планирование: Разделите сложные задачи на мелкие шаги и автоматизируйте их выполнение.
  • Изучение опыта: Обучение на основе исторических задач для повышения эффективности.
  • Поддержка кросс-платформы: Доступно на macOS (Пакет для установки одним щелчком мыши), Windows и Linux.
  • Мультимодальные входы: Сочетайте изображения на экране и элементы интерфейса для точного управления.
  • Персонализация с открытым исходным кодом: Исходный код и документация предоставляются и могут быть свободно адаптированы разработчиком.
  • Обновление базы знаний: Постоянное обновление данных об опыте во время работы для повышения интеллектуальности.

 

Использование помощи

Agent S - это инструмент с открытым исходным кодом для разработчиков, для установки и использования которого требуется определенная основа программирования. Ниже приведены подробные шаги и функциональные инструкции, которые помогут пользователям быстро начать работу.

Процесс установки

  1. Подготовка среды
    • Установите Python с 3.9 по 3.12.
    • Установите Git для загрузки кода.
    • Дополнительно: подготовьте виртуальную машину (например, VMware) для тестирования или изоляции среды.
  2. Код загрузки
    • Откройте терминал и запустите его:
      git clone https://github.com/simular-ai/Agent-S.git
      
    • Перейдите в каталог проектов:
      cd Agent-S
      
  3. Установка зависимостей
    • Создайте виртуальную среду (рекомендуется):
      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • Установите библиотеку ядра:
      pip install gui-agents
      
    • Установка переменных окружения (например, ключей API):
      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. Стартовый агент S
    • Запустите Агент S1 или S2:
      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • После запуска введите задание, чтобы начать работу.

Основные функции

Работа с графическим интерфейсом пользователя (GUI)

  • Функциональное описание: Имитация работы человека с помощью снимков экрана и распознавания интерфейса.
  • процедура::
    1. быть в движении agent_s2.
    2. Введите задание: "Откройте блокнот и введите 'hello'".
    3. Агент S2 Найдите значок блокнота, щелкните по нему, чтобы открыть, а затем введите свой текст.
    4. Нажмите Ctrl+C, чтобы остановиться в любой момент.

Постановка задач и планирование

  • Функциональное описаниеРазбивайте сложные задачи на мелкие шаги и выполняйте их постепенно.
  • процедура::
    1. Введите "Отправить письмо другу".
    2. Агент S2 выполняет это автоматически: откройте почтовую программу, создайте новое сообщение, заполните его содержимое и нажмите кнопку "Отправить".
    3. Пользователи могут просматривать журналы для каждого шага на терминале.

Изучение опыта

  • Функциональное описание: Записывайте ход выполнения задания и оптимизируйте последующие операции.
  • процедура::
    1. После выполнения квеста опыт сохраняется в gui_agents/kb Папка.
    2. Повторное выполнение аналогичных задач повысит эффективность.
    3. Разработчики могут обратиться к документу базы знаний, чтобы ознакомиться с содержанием обучения.

Функциональное управление

Поддержка кросс-платформы

  • Функциональное описание: Поддержка трех основных операционных систем.
  • процедура::
    1. Windows требует установки pywin32 ответить пением pywinauto.
    2. Требуется macOS pyobjcиспользовать pip install pyobjc Установка.
    3. Проверка Linux pyautogui совместимость, может потребоваться корректировка разрешений.

Мультимодальные входы

  • Функциональное описание: Сочетание изображений и данных интерфейса для повышения точности работы.
  • процедура::
    1. Введите: "Поиск "погода" в вашем браузере".
    2. Агент S2 анализирует экран, находит окно браузера и вводит поисковый запрос.
    3. Результаты отображаются автоматически.

База знаний Скачать

  • Функциональное описаниеАгент S2 использует предварительно обученную базу знаний и поддерживает работу в автономном режиме.
  • процедура::
    1. Автоматически загружает базу знаний с GitHub Releases при первом запуске.
    2. Пример загрузки руководства:
      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. Путь к базе знаний находится в kb_data Папка.

Расширенная конфигурация

Интеграция Perplexica Search

  • Функциональное описание: Расширение возможностей агента S по поиску знаний в Интернете.
  • процедура::
    1. Установите Docker Desktop и запустите его.
    2. Скачать Perplexica:
      cd Perplexica
      git submodule update --init
      
    3. переименовать sample.config.toml из-за config.tomlЕсли вы не уверены в ключе API, введите его.
    4. Начните обслуживание:
      docker compose up -d
      
    5. Установите URL-адрес Perplexica:
      export PERPLEXICA_URL=http://localhost:端口/api/search
      

Пользовательские модели

  • Функциональное описание: Поддержка нескольких больших моделей и пользовательских конечных точек.
  • процедура::
    1. пользоваться Клод Модели:
      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. Используйте конечную точку "Обнимающееся лицо":
      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      

предостережение

  • Для первого запуска требуется подключение к Интернету для загрузки зависимостей и базы знаний.
  • Пользователи Linux избегают окружения Conda, которое может помешать pyatspi.
  • Подробная документация доступна по адресу README.md ответить пением models.md Средний.

 

сценарий применения

  1. автоматизация офиса
    Agent S автоматически заполняет формы и отправляет электронные письма, сокращая количество повторяющейся работы.
  2. тестирование программного обеспечения
    Моделируйте действия пользователей и проверяйте стабильность работы программного обеспечения на различных системах.
  3. Исследование искусственного интеллекта
    Исследователи используют его для изучения технических принципов интеллектуального взаимодействия тела и компьютера.

 

QA

  1. В чем разница между агентом S2 и S1?
    S2 - это обновленная версия S1 с большей производительностью и поддержкой большего количества бенчмарков, таких как OSWorld и AndroidWorld.
  2. Нужно ли мне постоянно быть на связи?
    Доступ к Интернету требуется для первой установки и загрузки базы знаний, после чего ее можно запускать в автономном режиме.
  3. Как связаться со службой поддержки сообщества?
    Присоединяйтесь к серверу Discord (https://discord.gg/E2XfsK9fPV) или отправьте проблему на GitHub.

 

Анонсированы технические подробности Agent S2: комбинаторный ИИ-фреймворк для компьютерных операций общего назначения

Создание интеллекта, способного использовать компьютеры так же умело, как человек, - одна из ключевых задач на пути к созданию искусственного интеллекта общего назначения (ИИО). Такие задачи охватывают широкий спектр сценариев - от выполнения открытых числовых задач до навигации по незнакомым приложениям с помощью графических пользовательских интерфейсов (GUI) с проблемными пространствами, которые являются большими, шумными и очень динамичными. Недавно была опубликована статья о Agent S2 Официальный релиз технического документа исследования, в котором предлагается модульная структура и достигается лидирующая производительность в нескольких компьютерных бенчмарках.

Agent S2 Код, связанный с этим выпуском, ранее был открыт. Выпущенный технический документ (доступен по адресу arXiv (Get) подробно рассматривает основные концепции и архитектурный дизайн системы. Simular AI, исследовательская группа, создавшая эту систему, также ранее опубликовала вводную статью для неспециалистов.

Обзор агента S2: комбинированные интеллектуальные конструкции

Agent S2 Основная философия дизайна заключается в декомпозиции сложных компьютерных задач, не полагаясь на одну большую модель для выполнения всей работы по планированию, действию и пониманию взаимодействия с экраном, а распределяя эти обязанности между модулем планирования общего назначения и специализированным модулем исполнения/понимания (специалистами). Такая комбинированная архитектура призвана имитировать работу команд человеческих экспертов: высокоуровневые планировщики, низкоуровневые исполнители и специалисты по взаимодействию с интерфейсом работают в тандеме.

Agent S:像人类一样操作电脑的开源智能体框架
Схема архитектуры агента S2: объединение общего планировщика со специализированными базовыми модулями.

Agent S2 Ключевые особенности включают:

  • Смесь заземления (MoG). Используйте набор базовых экспертных моделей (включая извлечение визуальной, текстовой и структурированной информации) для точного определения местоположения элементов графического интерфейса пользователя. Например, работа с электронной таблицей может быть сфокусирована на структурированных данных, в то время как нажатие кнопки зависит от визуальной ориентации. Такая конструкция позволяет отделить обоснование от планирования, эффективно снижая сложность задачи и приводя ее в соответствие с текущим распределением обучения для общих моделей умозаключений и специализированных визуальных базовых моделей.
  • Проактивное иерархическое планирование (PHP). Система способна динамически корректировать и уточнять свои планы в ответ на обратную связь от окружающей среды, а не жестко следовать заранее заданному сценарию. Это позволяет интеллекту быть более гибким в реагировании на непредвиденные ситуации.

Результаты бенчмарка: лидер кросс-платформенной производительности

Данные, приведенные в статье, показывают, что Agent S2 В широко используемом OSWorld В ходе эталонных испытаний был установлен новый рекорд производительности. OSWorld В основном он оценивает способность искусственного интеллекта выполнять различные задачи, такие как управление файлами, использование программного обеспечения и поиск информации в симулированной среде операционной системы.

Agent S:像人类一样操作电脑的开源智能体框架
Сравнение успешных показателей OSWorld Benchmark.

Кроме того. Agent S2 Он также демонстрирует хорошую обобщенность на других платформах:

  • WindowsAgentArena. Это бенчмарк, ориентированный на сложные задачи взаимодействия в среде Windows. Agent S2 Производительность в этом тесте улучшилась на 52,81 TP3T по сравнению с предыдущим результатом Best Open Result (SOTA).
  • AndroidWorld. Этот бенчмарк измеряет способность выполнять задачи на мобильной операционной системе Android. Agent S2 Здесь производительность также превосходит предыдущие результаты SOTA с улучшением на 16,51 TP3T.

Agent S:像人类一样操作电脑的开源智能体框架
Показатели успешности в OSWorld свидетельствуют о том, что Agent S2 превосходит предыдущие методы.

Agent S:像人类一样操作电脑的开源智能体框架
Показатели успешности на WindowsAgentArena.

Инновационный дизайн: синергия между МГ и PHP

Основные проблемы, с которыми сталкиваются многие существующие компьютерные интеллекты на практике, связаны с неточным пониманием элементов интерфейса (т.е. с проблемой "заземления базы") или с чрезмерно жесткими процессами выполнения плана. Agent S2 Эти вопросы решаются с помощью двух основных разработок:

  • Моделирование на смешанной основе (MoG). Механизм MoG способен интеллектуально направлять задачи к наиболее подходящей экспертной модели в зависимости от текущих требований к взаимодействию. Например, распознавание и манипулирование ячейкой электронной таблицы может вызвать эксперта, основанного на структурном анализе, в то время как при нажатии на визуально заметную кнопку происходит переключение на визуальную базовую модель. Разделение базового понимания взаимодействия и высокоуровневого планирования задач, по сути, разбивает сложную проблему на две относительно более простые и удобные для моделирования подпроблемы.
  • Проактивное планирование (PHP). Модуль PHP позволяет интеллекту постоянно адаптировать подцели и планы действий в ответ на новые наблюдения в окружающей среде. Эта адаптация имитирует человеческую поведенческую модель переоценки и пересмотра планов при изменении ситуации во время выполнения задачи.

Agent S:像人类一样操作电脑的开源智能体框架
Пример: агент S2 самокорректируется в процессе взаимодействия, переключаясь с визуальной базовой модели на текстовую.

Масштабируемость и восстановление после ошибок

Было показано, что в задачах, требующих выполнения более длинных последовательностей операций, Agent S2 Комбинаторная архитектура демонстрирует лучшую масштабируемость по сравнению с монолитными моделями. Их динамические адаптивные и самокорректирующиеся возможности позволяют им корректировать свои стратегии, когда первоначальные действия не приносят желаемого эффекта, что повышает скорость выполнения сложных задач. Монолитные модели более склонны к сбоям при выполнении длинных последовательных задач из-за кумулятивных ошибок или жесткости планирования.

Agent S:像人类一样操作电脑的开源智能体框架
Причины, по которым агент S2 сохраняет свою производительность в задачах с длительным временем выполнения: адаптивная навигация, взаимодействие и механизмы исправления ошибок.

За пределами настольной среды: обобщенная производительность на платформе Android

(действуйте и делайте) без колебаний Agent S2 Основным объектом разработки является интеллект для настольных систем, но конструкция фреймворка показала хорошую обобщенность и для мобильных сред. В AndroidWorld Лидирующие показатели в бенчмарк-тесте доказывают пригодность основных концепций, таких как MoG и PHP, для различных типов графических интерфейсов.

Agent S:像人类一样操作电脑的开源智能体框架
Agent S2 достигает лидерства в рейтинге использования смартфонов AndroidWorld.

Достижения в области модульного интеллекта

Agent S2 Результаты исследования показывают, что комбинаторика - это не только архитектурный выбор, но и эффективный способ создания интеллектов, способных управлять компьютерами в надежной, человекоподобной манере. Эта работа открывает новые возможности для будущих исследований в области планирования ИИ, базового понимания взаимодействия (grounding) и мультимодальной координации.

Заинтересованным читателям рекомендуется ознакомиться с подробным Технические документы соответствующий открытый исходный код.

© заявление об авторских правах

Похожие статьи

VStamp:YouTube视频学习工具,自动生成Youtube视频章节与视频内容对话

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...