AutoGLM-Web Plugin: больше, чем использование компьютера, настал момент "использования телефона" ИИ!

Новости ИИОбновлено 9 месяцев назад Круг обмена ИИ
9.2K 00
AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

 

По сравнению с компьютерами, мобильные телефоны, которые "нельзя положить на пол", сопровождают нас в течение более длительного времени и находятся ближе к нашей жизни.

Если "Использование компьютера" открывает новую парадигму взаимодействия человека и компьютера, то "Использование телефона" делает еще один шаг вперед, открывая новые возможности применения и позволяя ИИ приносить реальную пользу каждому.

GLM-PC (Smart Spectrum Bull) официально выпущен для внутреннего скачивания, ИИ, который действительно может управлять компьютером

 

Сегодня, основываясь на результатах работы технической команды GLM в области языкового моделирования, мультимодального моделирования и использования инструментов, мы представляем первый продукт GLM - интеллектуальное тело (агент) AutoGLM, которое может имитировать работу человека с мобильным телефоном и, в свою очередь, помогать вам, просто получая простые текстовые/голосовые команды:

"Ставьте лайк и пишите комментарии в кругу друзей вашего босса" на WeChat .......
На Taobao "купить определенный исторический заказ товара" ......
Бронируйте отели на Ctrip ......
Купить билеты на поезд 12306 ......
Закажите еду на вынос на сайте Meituan .......

Теоретически, при глубоком понимании графических интерфейсов, AutoGLM может делать все, что может делать человек на визуальном электронном устройстве (компьютер, мобильный телефон, планшет ......).

AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

Момент "использования телефона" ИИ сделал еще один небольшой шаг вперед на пути к обобщенному искусственному интеллекту (AGI).

 

Она не ограничивается простыми сценариями задач или вызовами API и не требует от пользователей вручную выстраивать сложные и утомительные рабочие процессы, логика работы похожа на человеческую и действительно помогает людям в повседневной жизни и работе.
Адрес проекта: https://xiao9905.github.io/AutoGLM

На этот раз мы все еще не публикуем "фьючерсы", так что вы можете пройти мимо:
Установив плагин "Спектр мудрости" для браузера Chrome или Edge, вы сможете испытать AutoGLM-Web - помощник, который имитирует посещение пользователем веб-страницы, кликает по ней и автоматически выполняет расширенный поиск, обобщение и формирование контента на сайте на основе команд пользователя в большой модели.
Что касается мобильных телефонов, то первая партия открыта для некоторых пользователей Qingyin (пока поддерживается только система Android), и мы приглашаем вас подавать заявки на внутреннее тестирование. Стоит отметить, что мы также сотрудничаем с производителями мобильных телефонов, такими как Honor, на основе AutoGLM.

 

Технология AutoGLM

AutoGLM основан на самостоятельно разработанных Smart Spectrum "Decoupled Intermediate Interface for Basic Intelligents" и "Self-evolving Online Course Reinforcement Learning Framework", которые преодолевают такие проблемы интеллектуальных исследований и приложений, как антагонизм возможностей, нехватка учебных задач и данных, нехватка сигналов обратной связи и дрейф распределений стратегий при планировании задач и выполнении действий крупномодельных интеллектов, в сочетании с адаптивной стратегией обучения и способны к непрерывному совершенствованию в процессе итераций, постоянно и стабильно улучшать свою производительность. Подобно человеку, в процессе роста постоянно приобретающему новые навыки.

AutoGLM решает две ключевые проблемы, когда большие модели используются в качестве интеллекта:

Проблема 1: Недостаточно точное "выполнение действий

Одна из главных проблем в обучении больших моделей интеллекта заключается в том, как заставить модель научиться точно манипулировать элементами, отображаемыми на экране. Комплексное обучение для совместной тренировки возможностей "выполнения действий" и "планирования задач" ограничено высокой стоимостью получения данных о траекториях и острой нехваткой общих данных, что приводит к неадекватной тренировке возможностей выполнения действий, требующих высокой точности.
Чтобы решить эту проблему, AutoGLM представляет дизайн "развязанного промежуточного интерфейса базового интеллекта", развязывая две фазы "планирования задачи" и "выполнения действия" с помощью промежуточного интерфейса на естественном языке, что позволяет значительно улучшить способность интеллекта. Например, при заказе еды на вынос на мобильном телефоне и нажатии кнопки "отправить заказ" сравнение между традиционной схемой и схемой "промежуточного интерфейса" выглядит следующим образом:

AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

Проблема 2: Отсутствие гибкости при "планировании миссии"

Еще одна серьезная проблема заключается в том, что у интеллектов с графическим интерфейсом крайне ограниченные и дорогостоящие данные об учебных траекториях. Более того, интеллект должен обладать гибкостью планирования и корректировки на лету, когда сталкивается со сложными задачами и реальным окружением. Этого невозможно добиться с помощью традиционных методов обучения на больших моделях, таких как имитационное обучение и контролируемая точная настройка (SFT). С этой целью мы разработали "Автоэволюционный онлайн-курс обучения с подкреплением" для обучения и расширения возможностей больших моделей интеллекта с нуля в реальных онлайн-средах, как веб-, так и телефонных, используя веб-браузеры в качестве экспериментальной среды. Внедряя стратегию самоэволюционного обучения, модель постоянно исследует, подстегивает и совершенствует себя. Используя метод обучения с подкреплением, система динамически корректирует сложность задачи обучения в соответствии с уровнем способностей интеллекта в текущих раундах итерации, чтобы максимизировать потенциал модели. А благодаря обновлению политики управления дисперсией KL и воспроизведению опыта уверенности интеллектуального тела, мы смягчаем и избегаем проблемы забывания моделью ранее выученной задачи во время итеративного обучения. Версия GLM-4-9B с открытым исходным кодом, обученная на основе этого метода, может улучшить результат более чем на 160% по сравнению с GPT-4o в эталоне WebArena-Lite, достигнув общего коэффициента успешного выполнения задачи 43%.
AutoGLM достигает значительного улучшения производительности как при использовании телефона, так и при использовании веб-браузера благодаря совместному применению собственной стратегии Wiseplan "разделение среднего интерфейса базовых интеллектов" и "саморазвивающейся системы обучения с подкреплением в онлайн-курсе". Например, AutoGLM значительно превосходит GPT-4o и Claude-3.5-Sonnet в бенчмарках AndroidLab. AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了 В бенчмарке WebArena-Lite AutoGLM достигает улучшения производительности примерно на 200% по сравнению с GPT-4o, значительно сокращая разрыв между человеческим и большим модельным интеллектом в плане успешности манипулирования графическим интерфейсом.
AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了 AutoGLM теперь поддерживает автоматическое выполнение задач для нескольких приложений на реальных телефонах Android с помощью Android-приложения. AutoGLM удовлетворительно справляется с ручной оценкой простых задач.
AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...