OpenAI запускает Operator, первый интеллект уровня L3: открытие новой эры взаимодействия человека и компьютера
Компьютер Трек Use переполнен стартапами и "темными лошадками", а также гигантскими гигантами, и вот теперь OpenAI уничтожил их.
Вы можете следить за Интеллектуальные средства автоматизации рабочего стола Мы собрали десятки сопутствующих товаров.
Конкуренция в области искусственного интеллекта становится все более ожесточенной, в игру вступают не только стартапы, но и технологические гиганты, а теперь и OpenAI активно включилась в борьбу. Недавно OpenAI официально выпустила систему интеллектуального тела под названием Operator - первую систему ИИ, которая может управлять компьютером автономно, как человек, что считается ключевым шагом для продвижения ИИ к общему искусственному интеллекту (AGI). Как предсказал президент OpenAI Грег Брокман:
2025 год станет годом интеллектуального тела. Возможно, мы станем свидетелями рождения "гибридного Интернета" (HYBRID INTERNET) с глубоким вовлечением разумных тел. "

Оператор: компьютерный интеллект на основе модели CUA
Operator - это предварительный исследовательский продукт, выпущенный OpenAI. Его основной технологией является модель Computer-Using Agent (CUA), которая сочетает в себе визуальные возможности GPT-4o и методы обучения с подкреплением, что позволяет ему взаимодействовать с графическим интерфейсом пользователя (GUI), анализируя скриншоты и имитируя использование человеком периферийных устройств, таких как клавиатура и мышь, для выполнения различных сложных задач. Клавиатура, мышь и другие периферийные устройства для управления компьютером и выполнения различных сложных задач.
В отличие от традиционных систем искусственного интеллекта, которые полагаются на заранее созданные API, Operator взаимодействует непосредственно с графическими пользовательскими интерфейсами (GUI) без необходимости разработки API, специфичных для конкретного приложения или веб-сайта. Это означает, что Operator может взаимодействовать практически с любым компьютерным приложением и веб-страницей точно так же, как это делает человеческий пользователь, выполняя такие базовые действия, как нажатие, набор текста, прокрутка и т. д., что значительно расширяет спектр приложений для искусственного интеллекта. Это значительно расширяет сферу применения ИИ.

Функциональные возможности оператора и потенциал применения
В демонстрационном ролике Operator продемонстрировал впечатляющую способность к автономной работе, понимая команды пользователя и выполняя различные повседневные и профессиональные задачи, например:
- Бронирование жизненных услугОператор может автоматизировать бронирование столиков в ресторанах, онлайн-покупки, заказ авиабилетов, билетов на мероприятия, встречи с домочадцами, заказы еды на дом и многое другое. Например, пользователи просто загружают фотографию своего рукописного списка покупок, а Оператор распознает его содержание и совершает покупку на таких платформах, как Instacart.
- Обработка и автоматизация информации: Быстрое выполнение повторяющихся операций, таких как пакетная загрузка файлов, пакетное редактирование документов, заполнение форм в Интернете и т.д.

В частности, в Operator представлены следующие основные функции:
- визуальное восприятие: Модель CUA способна обрабатывать пиксельные данные с экрана, понимать текущее визуальное состояние экрана и распознавать элементы интерфейса (например, кнопки, текстовые поля и т. д.).
- Рассуждения и планированиеБлагодаря технологии Chain of Thought (CoT) CUA способны рассуждать о шагах выполнения задачи, планировать путь операции, динамически корректировать план действий в зависимости от изменений в окружающей среде и даже самокорректироваться и корректировать стратегию при возникновении проблем.
- выполнение операций: CUA использует виртуальную мышь и клавиатуру для выполнения кликов, прокрутки, набора текста и других действий до тех пор, пока не будет выполнена поставленная задача. Пользователи могут даже попросить Оператора забронировать столик в ресторане с помощью специальных приложений, таких как OpenTable, или загрузить список покупок в Instacart, чтобы оформить заказ через вложение.


Технологическое ядро CUA: визуальное восприятие, планирование выводов и общий интерфейс
Основная движущая сила оператора заключается в мощных технических возможностях модели CUA, основные технические компоненты которой включают следующие три основных аспекта:
(1) Визуальное восприятие и рассуждения: CUA анализирует содержимое интерфейса, обрабатывая скриншоты, чтобы понять элементы и информацию на экране. В сочетании с технологией "цепочки мыслей" CUA может делать выводы о последующих шагах и генерировать скриншоты и журналы действий для отслеживания и корректировки потока задач.
(2) Многоэтапное планирование задач: CUA способна разбивать сложные задачи на многоэтапные операции, такие как поиск товаров на веб-странице, выбор спецификаций, подтверждение заказа и т. д. CUA также способна обеспечить возможность выполнения различных задач, включая следующие Что еще более важно, CUA обладает следующими возможностями Адаптация к изменениям и самокоррекция Возможность попытаться найти альтернативные варианты, когда содержимое сайта не соответствует ожиданиям.
(3) Общие интерфейсы, не требующие специальных API: CUA избавляется от зависимости традиционного ИИ от API и может взаимодействовать непосредственно с пользовательским интерфейсом, что делает его адаптируемым практически ко всем веб- и программным средам, действительно позволяя "Универсальный интерфейс для цифрового мира".которая позволяет ИИ взаимодействовать со всеми программными инструментами, используемыми людьми.
Производительность CUA: бенчмаркинг и практическое применение
CUA совершила прорыв в ряде эталонных тестов, значительно превзойдя предыдущие достижения:
- OSWorld (задачи операционной системы): коэффициент завершения CUA 38.1%Рекорд значительно превышает предыдущий лучший рекорд 22.0%.
- WebArena (Задачи браузера): коэффициент успешности CUA достиг 58.1%что значительно выше, чем в предыдущем случае. 36.2%.
- WebVoyager (простые веб-задачи): CUA достиг 87% коэффициент успешности, который близок к человеческому уровню.


Тем не менее, CUA все еще не дотягивает до человеческого уровня (например, в OSWorld человеческий показатель завершения работы составляет 72,41 TP3T). На практике CUA также имеет некоторые ограничения:
- Неточное редактирование текста: Ошибки при выполнении сложных задач по редактированию текста.
- Ограничения взаимодействия: Когда вы сталкиваетесь с незнакомым и сложным пользовательским интерфейсом, может потребоваться множество проб и ошибок.
- Зависимость Подробности Описание: Для достижения наилучших результатов от пользователя требуются очень конкретные инструкции по эксплуатации.
Безопасность: многочисленные механизмы защиты конфиденциальности и безопасности пользователей
Учитывая, что оператор может выполнять конфиденциальные операции, такие как платежи и логины, OpenAI включил в свою конструкцию несколько уровней защиты, чтобы обеспечить конфиденциальность пользователей и операционную безопасность:
- Подтверждение мандата: Система проактивно запрашивает подтверждение у пользователя перед выполнением критически важных операций, таких как бронирование и оплата. Например, когда ассистент составляет письмо для сброса пароля или собирается удалить электронное письмо, пользователю предлагается подтвердить, стоит ли продолжать или нет.
- Фильтрация содержимого: Система автоматически выявляет и блокирует потенциально опасные запросы (например, о покупке оружия).
- поведенческий мониторинг: В систему встроена функция мониторинга, которая обнаруживает ненормальные операции и приостанавливает выполнение задач.
- Пользователи могут взять управление на себя в любое времяПользователь может взять на себя выполнение задания в любой момент во время операции, и оператор не имеет доступа к записям операций пользователя в период взятия на себя, что обеспечивает конфиденциальность пользователя.
- Механизмы человеческого надзора: Для конфиденциальных задач (например, ввод пароля) CUA запрашивает подтверждение у пользователя, чтобы предотвратить злоупотребление.
- Меры по борьбе с мошенничеством: CUA может распознавать потенциально мошеннические веб-сайты и приостанавливать их работу.
- Поведенческая прозрачность: CUA создает скриншоты на каждом этапе работы, чтобы все действия можно было отследить.

Перспективы на будущее: популяризация интеллектуальных тел и развитие AGI
В настоящее время Operator открыт для тестирования только для Pro-пользователей в США. OpenAI заявляет, что в будущем расширит круг пользователей и планирует открыть возможности CUA через API, что позволит разработчикам создавать собственные компьютерные интеллекты.
Запуск Operator рассматривается как важный шаг в эволюции AGI. В дальнейшем Operator и технология CUA будут развиваться различными путями:
- Расширение компании IntelligentsiaПространство действий CUA будет расширено за счет новых сценариев задач, а OpenAI планирует предоставить открытые API для поддержки разработчиков в создании пользовательских интеллектов и расширении границ их применения.
- Оператор Global OpenВ будущем оператор планирует открыть доступ для пользователей Plus в большем количестве регионов, что принесет пользу пользователям по всему миру.
- Продвижение AGI: Появление Оператора предвещает ускоренное наступление эры интеллектов, и ожидается, что в ближайшие годы появится еще больше подобных интеллектов, а ИИ заменит человека в более широком спектре задач цифрового взаимодействия. 2025 год может стать настоящим "Годом умного тела"..
Выводы и размышления
Выпуск Operator и CUA знаменует собой революционный сдвиг в способе взаимодействия ИИ, который переходит от режима, основанного на интерфейсе данных, к универсальному режиму работы на основе интерфейса "человек-компьютер", закладывая прочный фундамент для реализации общего искусственного интеллекта (AGI).
Глубоко задумайтесь над проблемой:
- Заменит ли технология CUA постепенно существующие операции ИИ на базе API? Каковы реальные затраты и выгоды от внедрения в промышленном секторе?
- По мере роста возможностей CUA как изменится роль человека в решении цифровых задач? Нужно ли нам готовиться к "захвату интеллектуального тела"?
- В условиях все более сложной сетевой среды и потенциального риска злоупотреблений как CUA могут продолжать эффективно обеспечивать безопасность пользователей? Какие новые аспекты следует учитывать при разработке системы безопасности в будущем?
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...