OpenAI запускает Operator, первый интеллект уровня L3: открытие новой эры взаимодействия человека и компьютера

Новости ИИОбновлено 7 месяцев назад Круг обмена ИИ
7.5K 00

Компьютер Трек Use переполнен стартапами и "темными лошадками", а также гигантскими гигантами, и вот теперь OpenAI уничтожил их.

Вы можете следить за Интеллектуальные средства автоматизации рабочего стола Мы собрали десятки сопутствующих товаров.

 

Конкуренция в области искусственного интеллекта становится все более ожесточенной, в игру вступают не только стартапы, но и технологические гиганты, а теперь и OpenAI активно включилась в борьбу. Недавно OpenAI официально выпустила систему интеллектуального тела под названием Operator - первую систему ИИ, которая может управлять компьютером автономно, как человек, что считается ключевым шагом для продвижения ИИ к общему искусственному интеллекту (AGI). Как предсказал президент OpenAI Грег Брокман:

2025 год станет годом интеллектуального тела. Возможно, мы станем свидетелями рождения "гибридного Интернета" (HYBRID INTERNET) с глубоким вовлечением разумных тел. "

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Оператор: компьютерный интеллект на основе модели CUA

Operator - это предварительный исследовательский продукт, выпущенный OpenAI. Его основной технологией является модель Computer-Using Agent (CUA), которая сочетает в себе визуальные возможности GPT-4o и методы обучения с подкреплением, что позволяет ему взаимодействовать с графическим интерфейсом пользователя (GUI), анализируя скриншоты и имитируя использование человеком периферийных устройств, таких как клавиатура и мышь, для выполнения различных сложных задач. Клавиатура, мышь и другие периферийные устройства для управления компьютером и выполнения различных сложных задач.

В отличие от традиционных систем искусственного интеллекта, которые полагаются на заранее созданные API, Operator взаимодействует непосредственно с графическими пользовательскими интерфейсами (GUI) без необходимости разработки API, специфичных для конкретного приложения или веб-сайта. Это означает, что Operator может взаимодействовать практически с любым компьютерным приложением и веб-страницей точно так же, как это делает человеческий пользователь, выполняя такие базовые действия, как нажатие, набор текста, прокрутка и т. д., что значительно расширяет спектр приложений для искусственного интеллекта. Это значительно расширяет сферу применения ИИ.

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Функциональные возможности оператора и потенциал применения

В демонстрационном ролике Operator продемонстрировал впечатляющую способность к автономной работе, понимая команды пользователя и выполняя различные повседневные и профессиональные задачи, например:

  • Бронирование жизненных услугОператор может автоматизировать бронирование столиков в ресторанах, онлайн-покупки, заказ авиабилетов, билетов на мероприятия, встречи с домочадцами, заказы еды на дом и многое другое. Например, пользователи просто загружают фотографию своего рукописного списка покупок, а Оператор распознает его содержание и совершает покупку на таких платформах, как Instacart.
  • Обработка и автоматизация информации: Быстрое выполнение повторяющихся операций, таких как пакетная загрузка файлов, пакетное редактирование документов, заполнение форм в Интернете и т.д.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

В частности, в Operator представлены следующие основные функции:

  • визуальное восприятие: Модель CUA способна обрабатывать пиксельные данные с экрана, понимать текущее визуальное состояние экрана и распознавать элементы интерфейса (например, кнопки, текстовые поля и т. д.).
  • Рассуждения и планированиеБлагодаря технологии Chain of Thought (CoT) CUA способны рассуждать о шагах выполнения задачи, планировать путь операции, динамически корректировать план действий в зависимости от изменений в окружающей среде и даже самокорректироваться и корректировать стратегию при возникновении проблем.
  • выполнение операций: CUA использует виртуальную мышь и клавиатуру для выполнения кликов, прокрутки, набора текста и других действий до тех пор, пока не будет выполнена поставленная задача. Пользователи могут даже попросить Оператора забронировать столик в ресторане с помощью специальных приложений, таких как OpenTable, или загрузить список покупок в Instacart, чтобы оформить заказ через вложение.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Технологическое ядро CUA: визуальное восприятие, планирование выводов и общий интерфейс

Основная движущая сила оператора заключается в мощных технических возможностях модели CUA, основные технические компоненты которой включают следующие три основных аспекта:

(1) Визуальное восприятие и рассуждения: CUA анализирует содержимое интерфейса, обрабатывая скриншоты, чтобы понять элементы и информацию на экране. В сочетании с технологией "цепочки мыслей" CUA может делать выводы о последующих шагах и генерировать скриншоты и журналы действий для отслеживания и корректировки потока задач.

(2) Многоэтапное планирование задач: CUA способна разбивать сложные задачи на многоэтапные операции, такие как поиск товаров на веб-странице, выбор спецификаций, подтверждение заказа и т. д. CUA также способна обеспечить возможность выполнения различных задач, включая следующие Что еще более важно, CUA обладает следующими возможностями Адаптация к изменениям и самокоррекция Возможность попытаться найти альтернативные варианты, когда содержимое сайта не соответствует ожиданиям.

(3) Общие интерфейсы, не требующие специальных API: CUA избавляется от зависимости традиционного ИИ от API и может взаимодействовать непосредственно с пользовательским интерфейсом, что делает его адаптируемым практически ко всем веб- и программным средам, действительно позволяя "Универсальный интерфейс для цифрового мира".которая позволяет ИИ взаимодействовать со всеми программными инструментами, используемыми людьми.

 

Производительность CUA: бенчмаркинг и практическое применение

CUA совершила прорыв в ряде эталонных тестов, значительно превзойдя предыдущие достижения:

  • OSWorld (задачи операционной системы): коэффициент завершения CUA 38.1%Рекорд значительно превышает предыдущий лучший рекорд 22.0%.
  • WebArena (Задачи браузера): коэффициент успешности CUA достиг 58.1%что значительно выше, чем в предыдущем случае. 36.2%.
  • WebVoyager (простые веб-задачи): CUA достиг 87% коэффициент успешности, который близок к человеческому уровню.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

Тем не менее, CUA все еще не дотягивает до человеческого уровня (например, в OSWorld человеческий показатель завершения работы составляет 72,41 TP3T). На практике CUA также имеет некоторые ограничения:

  • Неточное редактирование текста: Ошибки при выполнении сложных задач по редактированию текста.
  • Ограничения взаимодействия: Когда вы сталкиваетесь с незнакомым и сложным пользовательским интерфейсом, может потребоваться множество проб и ошибок.
  • Зависимость Подробности Описание: Для достижения наилучших результатов от пользователя требуются очень конкретные инструкции по эксплуатации.

 

Безопасность: многочисленные механизмы защиты конфиденциальности и безопасности пользователей

Учитывая, что оператор может выполнять конфиденциальные операции, такие как платежи и логины, OpenAI включил в свою конструкцию несколько уровней защиты, чтобы обеспечить конфиденциальность пользователей и операционную безопасность:

  • Подтверждение мандата: Система проактивно запрашивает подтверждение у пользователя перед выполнением критически важных операций, таких как бронирование и оплата. Например, когда ассистент составляет письмо для сброса пароля или собирается удалить электронное письмо, пользователю предлагается подтвердить, стоит ли продолжать или нет.
  • Фильтрация содержимого: Система автоматически выявляет и блокирует потенциально опасные запросы (например, о покупке оружия).
  • поведенческий мониторинг: В систему встроена функция мониторинга, которая обнаруживает ненормальные операции и приостанавливает выполнение задач.
  • Пользователи могут взять управление на себя в любое времяПользователь может взять на себя выполнение задания в любой момент во время операции, и оператор не имеет доступа к записям операций пользователя в период взятия на себя, что обеспечивает конфиденциальность пользователя.
  • Механизмы человеческого надзора: Для конфиденциальных задач (например, ввод пароля) CUA запрашивает подтверждение у пользователя, чтобы предотвратить злоупотребление.
  • Меры по борьбе с мошенничеством: CUA может распознавать потенциально мошеннические веб-сайты и приостанавливать их работу.
  • Поведенческая прозрачность: CUA создает скриншоты на каждом этапе работы, чтобы все действия можно было отследить.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Перспективы на будущее: популяризация интеллектуальных тел и развитие AGI

В настоящее время Operator открыт для тестирования только для Pro-пользователей в США. OpenAI заявляет, что в будущем расширит круг пользователей и планирует открыть возможности CUA через API, что позволит разработчикам создавать собственные компьютерные интеллекты.

Запуск Operator рассматривается как важный шаг в эволюции AGI. В дальнейшем Operator и технология CUA будут развиваться различными путями:

  • Расширение компании IntelligentsiaПространство действий CUA будет расширено за счет новых сценариев задач, а OpenAI планирует предоставить открытые API для поддержки разработчиков в создании пользовательских интеллектов и расширении границ их применения.
  • Оператор Global OpenВ будущем оператор планирует открыть доступ для пользователей Plus в большем количестве регионов, что принесет пользу пользователям по всему миру.
  • Продвижение AGI: Появление Оператора предвещает ускоренное наступление эры интеллектов, и ожидается, что в ближайшие годы появится еще больше подобных интеллектов, а ИИ заменит человека в более широком спектре задач цифрового взаимодействия. 2025 год может стать настоящим "Годом умного тела"..

 

Выводы и размышления

Выпуск Operator и CUA знаменует собой революционный сдвиг в способе взаимодействия ИИ, который переходит от режима, основанного на интерфейсе данных, к универсальному режиму работы на основе интерфейса "человек-компьютер", закладывая прочный фундамент для реализации общего искусственного интеллекта (AGI).

Глубоко задумайтесь над проблемой:

  • Заменит ли технология CUA постепенно существующие операции ИИ на базе API? Каковы реальные затраты и выгоды от внедрения в промышленном секторе?
  • По мере роста возможностей CUA как изменится роль человека в решении цифровых задач? Нужно ли нам готовиться к "захвату интеллектуального тела"?
  • В условиях все более сложной сетевой среды и потенциального риска злоупотреблений как CUA могут продолжать эффективно обеспечивать безопасность пользователей? Какие новые аспекты следует учитывать при разработке системы безопасности в будущем?
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...