OpenAI запускает Operator, первый интеллект уровня L3: открытие новой эры взаимодействия человека и компьютера

Новости ИИОбновлено 1 год назад Круг обмена ИИ

52.8K 00

Компьютер Трек Use переполнен стартапами и "темными лошадками", а также гигантскими гигантами, и вот теперь OpenAI уничтожил их.

Вы можете следить за Интеллектуальные средства автоматизации рабочего стола Мы собрали десятки сопутствующих товаров.

Конкуренция в области искусственного интеллекта становится все более ожесточенной, в игру вступают не только стартапы, но и технологические гиганты, а теперь и OpenAI активно включилась в борьбу. Недавно OpenAI официально выпустила систему интеллектуального тела под названием Operator - первую систему ИИ, которая может управлять компьютером автономно, как человек, что считается ключевым шагом для продвижения ИИ к общему искусственному интеллекту (AGI). Как предсказал президент OpenAI Грег Брокман:

2025 год станет годом интеллектуального тела. Возможно, мы станем свидетелями рождения "гибридного Интернета" (HYBRID INTERNET) с глубоким вовлечением разумных тел. "

Оператор: компьютерный интеллект на основе модели CUA

Operator - это предварительный исследовательский продукт, выпущенный OpenAI. Его основной технологией является модель Computer-Using Agent (CUA), которая сочетает в себе визуальные возможности GPT-4o и методы обучения с подкреплением, что позволяет ему взаимодействовать с графическим интерфейсом пользователя (GUI), анализируя скриншоты и имитируя использование человеком периферийных устройств, таких как клавиатура и мышь, для выполнения различных сложных задач. Клавиатура, мышь и другие периферийные устройства для управления компьютером и выполнения различных сложных задач.

В отличие от традиционных систем искусственного интеллекта, которые полагаются на заранее созданные API, Operator взаимодействует непосредственно с графическими пользовательскими интерфейсами (GUI) без необходимости разработки API, специфичных для конкретного приложения или веб-сайта. Это означает, что Operator может взаимодействовать практически с любым компьютерным приложением и веб-страницей точно так же, как это делает человеческий пользователь, выполняя такие базовые действия, как нажатие, набор текста, прокрутка и т. д., что значительно расширяет спектр приложений для искусственного интеллекта. Это значительно расширяет сферу применения ИИ.

Функциональные возможности оператора и потенциал применения

В демонстрационном ролике Operator продемонстрировал впечатляющую способность к автономной работе, понимая команды пользователя и выполняя различные повседневные и профессиональные задачи, например:

Бронирование жизненных услугОператор может автоматизировать бронирование столиков в ресторанах, онлайн-покупки, заказ авиабилетов, билетов на мероприятия, встречи с домочадцами, заказы еды на дом и многое другое. Например, пользователи просто загружают фотографию своего рукописного списка покупок, а Оператор распознает его содержание и совершает покупку на таких платформах, как Instacart.
Обработка и автоматизация информации: Быстрое выполнение повторяющихся операций, таких как пакетная загрузка файлов, пакетное редактирование документов, заполнение форм в Интернете и т.д.

В частности, в Operator представлены следующие основные функции:

визуальное восприятие: Модель CUA способна обрабатывать пиксельные данные с экрана, понимать текущее визуальное состояние экрана и распознавать элементы интерфейса (например, кнопки, текстовые поля и т. д.).
Рассуждения и планированиеБлагодаря технологии Chain of Thought (CoT) CUA способны рассуждать о шагах выполнения задачи, планировать путь операции, динамически корректировать план действий в зависимости от изменений в окружающей среде и даже самокорректироваться и корректировать стратегию при возникновении проблем.
выполнение операций: CUA использует виртуальную мышь и клавиатуру для выполнения кликов, прокрутки, набора текста и других действий до тех пор, пока не будет выполнена поставленная задача. Пользователи могут даже попросить Оператора забронировать столик в ресторане с помощью специальных приложений, таких как OpenTable, или загрузить список покупок в Instacart, чтобы оформить заказ через вложение.

Технологическое ядро CUA: визуальное восприятие, планирование выводов и общий интерфейс

Основная движущая сила оператора заключается в мощных технических возможностях модели CUA, основные технические компоненты которой включают следующие три основных аспекта:

(1) Визуальное восприятие и рассуждения: CUA анализирует содержимое интерфейса, обрабатывая скриншоты, чтобы понять элементы и информацию на экране. В сочетании с технологией "цепочки мыслей" CUA может делать выводы о последующих шагах и генерировать скриншоты и журналы действий для отслеживания и корректировки потока задач.

(2) Многоэтапное планирование задач: CUA способна разбивать сложные задачи на многоэтапные операции, такие как поиск товаров на веб-странице, выбор спецификаций, подтверждение заказа и т. д. CUA также способна обеспечить возможность выполнения различных задач, включая следующие Что еще более важно, CUA обладает следующими возможностями Адаптация к изменениям и самокоррекция Возможность попытаться найти альтернативные варианты, когда содержимое сайта не соответствует ожиданиям.

(3) Общие интерфейсы, не требующие специальных API: CUA избавляется от зависимости традиционного ИИ от API и может взаимодействовать непосредственно с пользовательским интерфейсом, что делает его адаптируемым практически ко всем веб- и программным средам, действительно позволяя "Универсальный интерфейс для цифрового мира".которая позволяет ИИ взаимодействовать со всеми программными инструментами, используемыми людьми.

Производительность CUA: бенчмаркинг и практическое применение

CUA совершила прорыв в ряде эталонных тестов, значительно превзойдя предыдущие достижения:

OSWorld (задачи операционной системы): коэффициент завершения CUA 38.1%Рекорд значительно превышает предыдущий лучший рекорд 22.0%.
WebArena (Задачи браузера): коэффициент успешности CUA достиг 58.1%что значительно выше, чем в предыдущем случае. 36.2%.
WebVoyager (простые веб-задачи): CUA достиг 87% коэффициент успешности, который близок к человеческому уровню.

Тем не менее, CUA все еще не дотягивает до человеческого уровня (например, в OSWorld человеческий показатель завершения работы составляет 72,41 TP3T). На практике CUA также имеет некоторые ограничения:

Неточное редактирование текста: Ошибки при выполнении сложных задач по редактированию текста.
Ограничения взаимодействия: Когда вы сталкиваетесь с незнакомым и сложным пользовательским интерфейсом, может потребоваться множество проб и ошибок.
Зависимость Подробности Описание: Для достижения наилучших результатов от пользователя требуются очень конкретные инструкции по эксплуатации.

Безопасность: многочисленные механизмы защиты конфиденциальности и безопасности пользователей

Учитывая, что оператор может выполнять конфиденциальные операции, такие как платежи и логины, OpenAI включил в свою конструкцию несколько уровней защиты, чтобы обеспечить конфиденциальность пользователей и операционную безопасность:

Подтверждение мандата: Система проактивно запрашивает подтверждение у пользователя перед выполнением критически важных операций, таких как бронирование и оплата. Например, когда ассистент составляет письмо для сброса пароля или собирается удалить электронное письмо, пользователю предлагается подтвердить, стоит ли продолжать или нет.
Фильтрация содержимого: Система автоматически выявляет и блокирует потенциально опасные запросы (например, о покупке оружия).
поведенческий мониторинг: В систему встроена функция мониторинга, которая обнаруживает ненормальные операции и приостанавливает выполнение задач.
Пользователи могут взять управление на себя в любое времяПользователь может взять на себя выполнение задания в любой момент во время операции, и оператор не имеет доступа к записям операций пользователя в период взятия на себя, что обеспечивает конфиденциальность пользователя.
Механизмы человеческого надзора: Для конфиденциальных задач (например, ввод пароля) CUA запрашивает подтверждение у пользователя, чтобы предотвратить злоупотребление.
Меры по борьбе с мошенничеством: CUA может распознавать потенциально мошеннические веб-сайты и приостанавливать их работу.
Поведенческая прозрачность: CUA создает скриншоты на каждом этапе работы, чтобы все действия можно было отследить.

Перспективы на будущее: популяризация интеллектуальных тел и развитие AGI

В настоящее время Operator открыт для тестирования только для Pro-пользователей в США. OpenAI заявляет, что в будущем расширит круг пользователей и планирует открыть возможности CUA через API, что позволит разработчикам создавать собственные компьютерные интеллекты.

Запуск Operator рассматривается как важный шаг в эволюции AGI. В дальнейшем Operator и технология CUA будут развиваться различными путями:

Расширение компании IntelligentsiaПространство действий CUA будет расширено за счет новых сценариев задач, а OpenAI планирует предоставить открытые API для поддержки разработчиков в создании пользовательских интеллектов и расширении границ их применения.
Оператор Global OpenВ будущем оператор планирует открыть доступ для пользователей Plus в большем количестве регионов, что принесет пользу пользователям по всему миру.
Продвижение AGI: Появление Оператора предвещает ускоренное наступление эры интеллектов, и ожидается, что в ближайшие годы появится еще больше подобных интеллектов, а ИИ заменит человека в более широком спектре задач цифрового взаимодействия. 2025 год может стать настоящим "Годом умного тела"..

Выводы и размышления

Выпуск Operator и CUA знаменует собой революционный сдвиг в способе взаимодействия ИИ, который переходит от режима, основанного на интерфейсе данных, к универсальному режиму работы на основе интерфейса "человек-компьютер", закладывая прочный фундамент для реализации общего искусственного интеллекта (AGI).

Глубоко задумайтесь над проблемой:

Заменит ли технология CUA постепенно существующие операции ИИ на базе API? Каковы реальные затраты и выгоды от внедрения в промышленном секторе?
По мере роста возможностей CUA как изменится роль человека в решении цифровых задач? Нужно ли нам готовиться к "захвату интеллектуального тела"?
В условиях все более сложной сетевой среды и потенциального риска злоупотреблений как CUA могут продолжать эффективно обеспечивать безопасность пользователей? Какие новые аспекты следует учитывать при разработке системы безопасности в будущем?

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Станет ли 2025 год эрой ИИ-агентов и заменит ли ИИ платформы без кода?

Новости ИИ

1 год назад

042.8K

Национальный суперкомпьютерный интернет начинает работу с DeepSeek R1, создавая интеллектуальную инфраструктуру, доступную для всех

Новости ИИ

1 год назад

042.1K

Подробный обзор 10 лучших проектов преобразования текста в речь

Новости ИИ

1 год назад

0129.6K

Hugging Face 推出 Agent 智能体排行榜：谁是工具调用领域的领导者？

Hugging Face Launches Agent Intelligence Body Rankings: кто лидирует в области вызова инструментов?

Новости ИИ

1 год назад

057.3K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

OpenAI запускает Operator, первый интеллект уровня L3: открытие новой эры взаимодействия человека и компьютера

Оператор: компьютерный интеллект на основе модели CUA

Функциональные возможности оператора и потенциал применения

Технологическое ядро CUA: визуальное восприятие, планирование выводов и общий интерфейс

Производительность CUA: бенчмаркинг и практическое применение

Безопасность: многочисленные механизмы защиты конфиденциальности и безопасности пользователей

Перспективы на будущее: популяризация интеллектуальных тел и развитие AGI

Выводы и размышления

OpenAI выпускает микромодель GPT-4b - модель, которая может позволить вам жить дольше!

Техническая документация системы оператора

Похожие статьи

Станет ли 2025 год эрой ИИ-агентов и заменит ли ИИ платформы без кода?

Национальный суперкомпьютерный интернет начинает работу с DeepSeek R1, создавая интеллектуальную инфраструктуру, доступную для всех

Подробный обзор 10 лучших проектов преобразования текста в речь

Hugging Face Launches Agent Intelligence Body Rankings: кто лидирует в области вызова инструментов?

Нет комментариев

Последние коллекции

Последние статьи

OpenAI запускает Operator, первый интеллект уровня L3: открытие новой эры взаимодействия человека и компьютера

Оператор: компьютерный интеллект на основе модели CUA

Функциональные возможности оператора и потенциал применения

Технологическое ядро CUA: визуальное восприятие, планирование выводов и общий интерфейс

Производительность CUA: бенчмаркинг и практическое применение

Безопасность: многочисленные механизмы защиты конфиденциальности и безопасности пользователей

Перспективы на будущее: популяризация интеллектуальных тел и развитие AGI

Выводы и размышления

OpenAI выпускает микромодель GPT-4b - модель, которая может позволить вам жить дольше!

Техническая документация системы оператора

Похожие статьи

Станет ли 2025 год эрой ИИ-агентов и заменит ли ИИ платформы без кода?

Национальный суперкомпьютерный интернет начинает работу с DeepSeek R1, создавая интеллектуальную инфраструктуру, доступную для всех

Подробный обзор 10 лучших проектов преобразования текста в речь

Hugging Face Launches Agent Intelligence Body Rankings: кто лидирует в области вызова инструментов?

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи