Агент S: платформа с открытым исходным кодом для интеллектуальных органов, позволяющая управлять компьютерами как людьми

Последние ресурсы по искусственному интеллектуОбновлено 9 месяцев назад Круг обмена ИИ

48.3K 00

Общее введение

Agent S - это фреймворк с открытым исходным кодом, разработанный компанией Simular AI, который позволяет интеллектам управлять компьютерами, как людьми, с помощью графического интерфейса пользователя (GUI). Он использует мультимодальную модель макроязыка и эмпирические методы обучения для выполнения таких задач, как просмотр веб-страниц, редактирование документов и использование программного обеспечения. Проект находится в открытом доступе на GitHub и имеет активное сообщество разработчиков. Доклад Агента S1 был принят ICLR в 2025 году, а Агент S2 был выпущен в марте 2025 года, опередив OpenAI и Антропология Он поддерживает macOS, Windows и Linux. Он поддерживает macOS, Windows и Linux и подходит для автоматизированных офисов, тестирования программного обеспечения и исследований в области искусственного интеллекта.

Список функций

Работа с графическим интерфейсом пользователя (GUI): Аналоговая мышь и клавиатура для взаимодействия с компьютерными программами.
Постановка задач и планирование: Разделите сложные задачи на мелкие шаги и автоматизируйте их выполнение.
Изучение опыта: Обучение на основе исторических задач для повышения эффективности.
Поддержка кросс-платформы: Доступно на macOS (Пакет для установки одним щелчком мыши), Windows и Linux.
Мультимодальные входы: Сочетайте изображения на экране и элементы интерфейса для точного управления.
Персонализация с открытым исходным кодом: Исходный код и документация предоставляются и могут быть свободно адаптированы разработчиком.
Обновление базы знаний: Постоянное обновление данных об опыте во время работы для повышения интеллектуальности.

Использование помощи

Agent S - это инструмент с открытым исходным кодом для разработчиков, для установки и использования которого требуется определенная основа программирования. Ниже приведены подробные шаги и функциональные инструкции, которые помогут пользователям быстро начать работу.

Процесс установки

Подготовка среды
- Установите Python с 3.9 по 3.12.
- Установите Git для загрузки кода.
- Дополнительно: подготовьте виртуальную машину (например, VMware) для тестирования или изоляции среды.
Код загрузки
- Откройте терминал и запустите его:
```
git clone https://github.com/simular-ai/Agent-S.git
```
- Перейдите в каталог проектов:
```
cd Agent-S
```
Установка зависимостей
- Создайте виртуальную среду (рекомендуется):
```
python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows
```
- Установите библиотеку ядра:
```
pip install gui-agents
```
- Установка переменных окружения (например, ключей API):
```
export OPENAI_API_KEY=<你的密钥>
export ANTHROPIC_API_KEY=<你的密钥>
export HF_TOKEN=<你的Hugging Face密钥>
```
Стартовый агент S
- Запустите Агент S1 или S2:
```
agent_s1  # 运行 Agent S1
agent_s2  # 运行 Agent S2
```
- После запуска введите задание, чтобы начать работу.

Основные функции

Работа с графическим интерфейсом пользователя (GUI)

Функциональное описание: Имитация работы человека с помощью снимков экрана и распознавания интерфейса.
процедура::
1. быть в движении agent_s2.
2. Введите задание: "Откройте блокнот и введите 'hello'".
3. Агент S2 Найдите значок блокнота, щелкните по нему, чтобы открыть, а затем введите свой текст.
4. Нажмите Ctrl+C, чтобы остановиться в любой момент.

Постановка задач и планирование

Функциональное описаниеРазбивайте сложные задачи на мелкие шаги и выполняйте их постепенно.
процедура::
1. Введите "Отправить письмо другу".
2. Агент S2 выполняет это автоматически: откройте почтовую программу, создайте новое сообщение, заполните его содержимое и нажмите кнопку "Отправить".
3. Пользователи могут просматривать журналы для каждого шага на терминале.

Изучение опыта

Функциональное описание: Записывайте ход выполнения задания и оптимизируйте последующие операции.
процедура::
1. После выполнения квеста опыт сохраняется в gui_agents/kb Папка.
2. Повторное выполнение аналогичных задач повысит эффективность.
3. Разработчики могут обратиться к документу базы знаний, чтобы ознакомиться с содержанием обучения.

Функциональное управление

Поддержка кросс-платформы

Функциональное описание: Поддержка трех основных операционных систем.
процедура::
1. Windows требует установки pywin32 ответить пением pywinauto.
2. Требуется macOS pyobjcиспользовать pip install pyobjc Установка.
3. Проверка Linux pyautogui совместимость, может потребоваться корректировка разрешений.

Мультимодальные входы

Функциональное описание: Сочетание изображений и данных интерфейса для повышения точности работы.
процедура::
1. Введите: "Поиск "погода" в вашем браузере".
2. Агент S2 анализирует экран, находит окно браузера и вводит поисковый запрос.
3. Результаты отображаются автоматически.

База знаний Скачать

Функциональное описаниеАгент S2 использует предварительно обученную базу знаний и поддерживает работу в автономном режиме.
процедура::
1. Автоматически загружает базу знаний с GitHub Releases при первом запуске.
2. Пример загрузки руководства:
```
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
```
3. Путь к базе знаний находится в kb_data Папка.

Расширенная конфигурация

Интеграция Perplexica Search

Функциональное описание: Расширение возможностей агента S по поиску знаний в Интернете.
процедура::
1. Установите Docker Desktop и запустите его.
2. Скачать Perplexica:
```
cd Perplexica
git submodule update --init
```
3. переименовать sample.config.toml из-за config.tomlЕсли вы не уверены в ключе API, введите его.
4. Начните обслуживание:
```
docker compose up -d
```
5. Установите URL-адрес Perplexica:
```
export PERPLEXICA_URL=http://localhost:端口/api/search
```

Пользовательские модели

Функциональное описание: Поддержка нескольких больших моделей и пользовательских конечных точек.
процедура::
1. пользоваться Клод Модели:
```
agent_s2 --model claude-3-7-sonnet-20250219
```
2. Используйте конечную точку "Обнимающееся лицо":
```
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
```

предостережение

Для первого запуска требуется подключение к Интернету для загрузки зависимостей и базы знаний.
Пользователи Linux избегают окружения Conda, которое может помешать pyatspi.
Подробная документация доступна по адресу README.md ответить пением models.md Средний.

сценарий применения

автоматизация офиса
Agent S автоматически заполняет формы и отправляет электронные письма, сокращая количество повторяющейся работы.
тестирование программного обеспечения
Моделируйте действия пользователей и проверяйте стабильность работы программного обеспечения на различных системах.
Исследование искусственного интеллекта
Исследователи используют его для изучения технических принципов интеллектуального взаимодействия тела и компьютера.

QA

В чем разница между агентом S2 и S1?
S2 - это обновленная версия S1 с большей производительностью и поддержкой большего количества бенчмарков, таких как OSWorld и AndroidWorld.
Нужно ли мне постоянно быть на связи?
Доступ к Интернету требуется для первой установки и загрузки базы знаний, после чего ее можно запускать в автономном режиме.
Как связаться со службой поддержки сообщества?
Присоединяйтесь к серверу Discord (https://discord.gg/E2XfsK9fPV) или отправьте проблему на GitHub.

Анонсированы технические подробности Agent S2: комбинаторный ИИ-фреймворк для компьютерных операций общего назначения

Создание интеллекта, способного использовать компьютеры так же умело, как человек, - одна из ключевых задач на пути к созданию искусственного интеллекта общего назначения (ИИО). Такие задачи охватывают широкий спектр сценариев - от выполнения открытых числовых задач до навигации по незнакомым приложениям с помощью графических пользовательских интерфейсов (GUI) с проблемными пространствами, которые являются большими, шумными и очень динамичными. Недавно была опубликована статья о Agent S2 Официальный релиз технического документа исследования, в котором предлагается модульная структура и достигается лидирующая производительность в нескольких компьютерных бенчмарках.

Agent S2 Код, связанный с этим выпуском, ранее был открыт. Выпущенный технический документ (доступен по адресу arXiv (Get) подробно рассматривает основные концепции и архитектурный дизайн системы. Simular AI, исследовательская группа, создавшая эту систему, также ранее опубликовала вводную статью для неспециалистов.

Обзор агента S2: комбинированные интеллектуальные конструкции

Agent S2 Основная философия дизайна заключается в декомпозиции сложных компьютерных задач, не полагаясь на одну большую модель для выполнения всей работы по планированию, действию и пониманию взаимодействия с экраном, а распределяя эти обязанности между модулем планирования общего назначения и специализированным модулем исполнения/понимания (специалистами). Такая комбинированная архитектура призвана имитировать работу команд человеческих экспертов: высокоуровневые планировщики, низкоуровневые исполнители и специалисты по взаимодействию с интерфейсом работают в тандеме.

Agent S：像人类一样操作电脑的开源智能体框架
Схема архитектуры агента S2: объединение общего планировщика со специализированными базовыми модулями.

Agent S2 Ключевые особенности включают:

Смесь заземления (MoG). Используйте набор базовых экспертных моделей (включая извлечение визуальной, текстовой и структурированной информации) для точного определения местоположения элементов графического интерфейса пользователя. Например, работа с электронной таблицей может быть сфокусирована на структурированных данных, в то время как нажатие кнопки зависит от визуальной ориентации. Такая конструкция позволяет отделить обоснование от планирования, эффективно снижая сложность задачи и приводя ее в соответствие с текущим распределением обучения для общих моделей умозаключений и специализированных визуальных базовых моделей.
Проактивное иерархическое планирование (PHP). Система способна динамически корректировать и уточнять свои планы в ответ на обратную связь от окружающей среды, а не жестко следовать заранее заданному сценарию. Это позволяет интеллекту быть более гибким в реагировании на непредвиденные ситуации.

Результаты бенчмарка: лидер кросс-платформенной производительности

Данные, приведенные в статье, показывают, что Agent S2 В широко используемом OSWorld В ходе эталонных испытаний был установлен новый рекорд производительности. OSWorld В основном он оценивает способность искусственного интеллекта выполнять различные задачи, такие как управление файлами, использование программного обеспечения и поиск информации в симулированной среде операционной системы.

Agent S：像人类一样操作电脑的开源智能体框架
Сравнение успешных показателей OSWorld Benchmark.

Кроме того. Agent S2 Он также демонстрирует хорошую обобщенность на других платформах:

WindowsAgentArena. Это бенчмарк, ориентированный на сложные задачи взаимодействия в среде Windows. Agent S2 Производительность в этом тесте улучшилась на 52,81 TP3T по сравнению с предыдущим результатом Best Open Result (SOTA).
AndroidWorld. Этот бенчмарк измеряет способность выполнять задачи на мобильной операционной системе Android. Agent S2 Здесь производительность также превосходит предыдущие результаты SOTA с улучшением на 16,51 TP3T.

Agent S：像人类一样操作电脑的开源智能体框架
Показатели успешности в OSWorld свидетельствуют о том, что Agent S2 превосходит предыдущие методы.

Agent S：像人类一样操作电脑的开源智能体框架
Показатели успешности на WindowsAgentArena.

Инновационный дизайн: синергия между МГ и PHP

Основные проблемы, с которыми сталкиваются многие существующие компьютерные интеллекты на практике, связаны с неточным пониманием элементов интерфейса (т.е. с проблемой "заземления базы") или с чрезмерно жесткими процессами выполнения плана. Agent S2 Эти вопросы решаются с помощью двух основных разработок:

Моделирование на смешанной основе (MoG). Механизм MoG способен интеллектуально направлять задачи к наиболее подходящей экспертной модели в зависимости от текущих требований к взаимодействию. Например, распознавание и манипулирование ячейкой электронной таблицы может вызвать эксперта, основанного на структурном анализе, в то время как при нажатии на визуально заметную кнопку происходит переключение на визуальную базовую модель. Разделение базового понимания взаимодействия и высокоуровневого планирования задач, по сути, разбивает сложную проблему на две относительно более простые и удобные для моделирования подпроблемы.
Проактивное планирование (PHP). Модуль PHP позволяет интеллекту постоянно адаптировать подцели и планы действий в ответ на новые наблюдения в окружающей среде. Эта адаптация имитирует человеческую поведенческую модель переоценки и пересмотра планов при изменении ситуации во время выполнения задачи.

Agent S：像人类一样操作电脑的开源智能体框架
Пример: агент S2 самокорректируется в процессе взаимодействия, переключаясь с визуальной базовой модели на текстовую.

Масштабируемость и восстановление после ошибок

Было показано, что в задачах, требующих выполнения более длинных последовательностей операций, Agent S2 Комбинаторная архитектура демонстрирует лучшую масштабируемость по сравнению с монолитными моделями. Их динамические адаптивные и самокорректирующиеся возможности позволяют им корректировать свои стратегии, когда первоначальные действия не приносят желаемого эффекта, что повышает скорость выполнения сложных задач. Монолитные модели более склонны к сбоям при выполнении длинных последовательных задач из-за кумулятивных ошибок или жесткости планирования.

Agent S：像人类一样操作电脑的开源智能体框架
Причины, по которым агент S2 сохраняет свою производительность в задачах с длительным временем выполнения: адаптивная навигация, взаимодействие и механизмы исправления ошибок.

За пределами настольной среды: обобщенная производительность на платформе Android

(действуйте и делайте) без колебаний Agent S2 Основным объектом разработки является интеллект для настольных систем, но конструкция фреймворка показала хорошую обобщенность и для мобильных сред. В AndroidWorld Лидирующие показатели в бенчмарк-тесте доказывают пригодность основных концепций, таких как MoG и PHP, для различных типов графических интерфейсов.

Agent S：像人类一样操作电脑的开源智能体框架
Agent S2 достигает лидерства в рейтинге использования смартфонов AndroidWorld.

Достижения в области модульного интеллекта

Agent S2 Результаты исследования показывают, что комбинаторика - это не только архитектурный выбор, но и эффективный способ создания интеллектов, способных управлять компьютерами в надежной, человекоподобной манере. Эта работа открывает новые возможности для будущих исследований в области планирования ИИ, базового понимания взаимодействия (grounding) и мультимодальной координации.

Заинтересованным читателям рекомендуется ознакомиться с подробным Технические документы соответствующий открытый исходный код.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Desktop Automation Intelligence

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Dippy: интерактивный инструмент для общения с персонажами ИИ

Последние ресурсы по искусственному интеллекту Ролевая игра # AI

10 месяцев назад

079.9K

Reclaim AI: ИИ-инструмент для управления календарем и отслеживания времени, умный помощник по составлению расписания

Последние ресурсы по искусственному интеллекту # AI Помощник по повышению эффективности жизни

12 месяцев назад

041.8K

Whalesync: инструмент двусторонней синхронизации для электронных таблиц и других источников данных

Последние ресурсы по искусственному интеллекту # Анализ данных искусственного интеллекта

9 месяцев назад

039.8K

InstantIR: проект с открытым исходным кодом по восстановлению поврежденных изображений и их HD-зуму, минимум 16 Гб видеопамяти

Последние ресурсы по искусственному интеллекту # AI Увеличение и восстановление изображений # AI Java Open Source Projecct

1 год назад

048.5K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Агент S: платформа с открытым исходным кодом для интеллектуальных органов, позволяющая управлять компьютерами как людьми

Общее введение

Список функций