Smart Spectrum выпускает AutoGLM, автономного агента для выполнения задач: на этот раз агент позволяет активно управлять всеми видами устройств для выполнения задач

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

60.8K 00

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
Происходит смена парадигмы взаимодействия человека с машинами. Это связано с эволюцией чатбота, состоящего только из диалога, в автономного агента с руками, мозгом и глазами.

Будучи одной из первых компаний, занимающихся разработкой крупных моделей, Smart Spectrum предлагает несколько новых разработок:

AutoGLM может автономно выполнять длинные шаги, состоящие из более чем 50 действий, а также выполнять задачи в разных приложениях.
AutoGLM открывает новый "полностью автоматизированный" интернет, поддерживающий десятки сайтов и более беспилотный режим работы
GLM-PC для управления компьютерами как людьми Запуск внутреннего тестирования и изучение методов реализации агентов общего назначения на основе визуальных мультимодальных моделей

На Agent OpenDay компания AutoGLM отправила "красный пакет WeChat от ИИ" сотням гостей и удаленно приказала компьютерам автоматически отправлять файлы с мобильных телефонов.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
Генеральному директору компании Wisdom Spectrum Чжану Пенгу достаточно отдать простую голосовую команду на месте. Изначально это были очень сложные операции для машины, сегодня же их полностью выполняет продукционированный агент Smart Spectrum.

Новое обновление AutoGLM: задача усложняется

С помощью обновленного AutoGLM можно решать сложные задачи:
Длиннее: понимают сверхдлинные инструкции и выполняют сверхдлинные задачи. Например, в примере с покупкой ингредиентов для горячего блюда AutoGLM автономно выполняет 54 шага без перерыва. Более того, AutoGLM превосходит человека, работающего вручную, в этой длинной многоэтапной циклической задаче.
Кросс-приложение: AutoGLM поддерживает кросс-прикладное выполнение задач. Пользователи привыкнут к автоматической обработке ИИ вместо переключения между несколькими приложениями. Поскольку текущая форма AutoGLM больше похожа на слой планирования для выполнения APP между пользователями и приложениями, возможность кросс-приложений является очень важным шагом в этом направлении.
Короткие фразы: AutoGLM может поддерживать пользовательские фразы для длинных задач. Сегодня вместо того, чтобы давать AutoGLM длинные команды вроде "Купите мне кофе, сырой кокосовый латте, магазин Wudaokou, большой, горячий, светлый сахар", вы можете просто сказать "Закажите кофе".
Casual Mode: Мы все боимся делать выбор, и сегодня AutoGLM может активно помогать вам принимать решения. В режиме Casual Mode ИИ решает все шаги, преподнося вам сюрприз в виде слепой коробки. Хотите попробовать вкус кофе, который закажет для вас ИИ?

В то же время, AutoGLM начал широкомасштабное внутреннее тестирование и в самое ближайшее время будет запущен в качестве продукта для пользователей С. AutoGLM также объявил о запуске программы "1 миллиард бесплатных автообновлений", приглашая партнеров по приложению совместно исследовать свои собственные новые сценарии автообновления.

API для образцов AutoGLM, поддерживающие основные сценарии и основные приложения, будут доступны для тестирования на открытой платформе Smart Spectrum maas (bigmodel.cn) в течение двух недель.

Веб-терминал открывает новый опыт "полностью автоматизированного" серфинга: с этого момента плагин AutoGLM от Wisdom Spectrum выходит в сеть, поддерживая беспилотное управление десятками сайтов, таких как поиск Baidu, Weibo, Zhihu, Github и так далее. В демонстрационном режиме плагин AutoGLM автоматически завершил процесс "поиска Mango tv в Baidu, открытия Little Alley House, воспроизведения последнего эпизода и отправки всплывающих окон для ввода окончания". Весь процесс происходил без вмешательства человека.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务

GLM-PC приглашение к тестированию: технологическая разведка для компьютеров без водителя

Не только на базе мобильных телефонов и браузеров, сегодня Wisdom Spectrum также предлагает автономные агенты на базе ПК. GLM-PC - это технология, разработанная командой GLM для "беспилотных" ПК, основанная на мультимодальной модели CogAgent компании Wisdom Spectrum. В настоящее время открыта первая фаза сценариев внутреннего тестирования, включая:

Помощники на совещаниях: помогают пользователям бронировать и участвовать в совещаниях, отправляют резюме совещаний.
Обработка документов: поддержка загрузки документов, отправка документов, понимание и обобщение документов.
Поиск в Интернете и конспектирование: поиск заданных ключевых слов на определенных платформах (например, WeChat, Zhihu, Xiaohongshu и т.д.) для завершения чтения и конспектирования.
Дистанционное управление и управление по времени: удаленный мобильный телефон посылает команды, GLM-PC может автономно завершить работу компьютера; установите будущее время для выполнения задач, регулярно находящихся в состоянии загрузки.
Невидимый экран: пока пользователь работает, GLM-PC может автономно завершать свою работу на невидимом экране, освобождая экран.

GLM-PC использует компьютер почти так же, как это делает человек: смотрит на графику и текст глазами, планирует мозгом, а затем использует руки для выполнения таких операций, как щелчок, двойной щелчок, набор текста и т. д. Именно поэтому GLM-PC научился использовать любое приложение, предназначенное для человека. Благодаря этому GLM-PC теоретически способен выполнить любое приложение, предназначенное для человека, после того как он его выучит. Это кроссплатформенная возможность системного уровня, которая не зависит от HTML или API и имеет более высокий потолок возможностей.

Однако из-за сложности ПК и того факта, что почти все, что каждый делает на ПК, является сложной задачей, откровенно говоря, возможности современных больших моделей еще далеки от того, чтобы стать реальной заменой для всех в офисе. GLM-PC в своей текущей версии все еще требует от пользователя ввода очень точных команд.

GLM-PC "Приглашение к опыту" было открыто. Мы продолжим упорно работать над тем, чтобы сделать продукт доступным для всех пользователей как можно скорее после его усовершенствования, а также надеемся на сотрудничество с другими поставщиками в рамках совместного предприятия.

AutoGLM и GLM-PC - это наши важные попытки продвинуться к интеллектуальной операционной системе с искусственным интеллектом. Они появились в результате накопления Wiseplan технологий в области больших языковых моделей, мультимодальных моделей, логических рассуждений и использования инструментов. Начиная с AgentBench в апреле 23 года и заканчивая моделью CogAgent в августе, Wiseplan разрабатывала AutoGLM и модель GLM-PC, CogAgent, в течение полутора лет.

В отличие от OpenAI, Smart Spectrum определяет пять этапов развития Большой модели: L1 Лингвистическая компетенция, L2 Логическая компетенция (мультимодальная компетенция), L3 Умение использовать инструменты, L4 Компетенция самообучения, L5 Изучение научных законов.

В ходе разработки Большая модель получила некоторые возможности взаимодействия человека с реальным физическим миром. "Агент значительно расширит возможности L3 по использованию инструментов, а также откроет возможности L4 по самообучению". говорит Чжан Пэн.

Чжан Пэн заявил, что команда GLM продолжит ускорять разработку продуктов агентской модели в будущем, рассчитывая как можно скорее перейти к парадигме управления компьютерами и мобильными телефонами в одном предложении.

Большие модели из чата в акт

Сегодня технология Больших моделей меняет способ взаимодействия машин и людей, основываясь на понимании потребностей, планировании и принятии решений, выполнении действий и самоанализе. Агент обеспечит интуитивное взаимодействие человека и компьютера - от адаптации людей к машинам до адаптации машин к людям.

Такие компании, как Apple Intelligence, Anthropic (Computer Use), Google (Jarvis) и OpenAI (Operator), также определили агентный ИИ в качестве основного направления на 2025 год. Недавно компания Gartner назвала агентный ИИ одним из 10 главных технологических трендов 2025 года и предсказала, что в 2028 году агентный ИИ будет автономно принимать не менее 15% ежедневных рабочих решений, по сравнению с нулем в 2024 году.

В отличие от GenAI, агенты ориентированы на достижение целей, способны полностью выполнять рабочие процессы, адаптироваться, обучаться, итерироваться, сотрудничать с другими системами и людьми и выполнять задачи до конца. По мнению Чжан Пэна, Agent можно рассматривать как прототип LLM-OS, общей операционной системы Large Model.

"На данном этапе AutoGLM эквивалентен добавлению слоя планирования выполнения между людьми и приложениями, что в значительной степени меняет форму человеко-машинного взаимодействия. Что еще более важно, мы видим возможность создания LLM-OS, основанной на больших возможностях модельного интеллекта (от L1 до L4 и далее), которая в будущем сможет обеспечить взаимодействие человека и компьютера. Это позволит вывести парадигму HCI на новый уровень".

Новая парадигма для умных устройств в эпоху искусственного интеллекта

По мере развития возможностей больших моделей мы постепенно видим, как ИИ обрастает собственным мозгом, глазами и руками. Продолжается не только рост интеллекта, но и обогащение и расширение возможностей восприятия и пропускной способности взаимодействия, а также ускоренное выполнение, которое теперь обеспечивает агент.

Чжан Фань, главный операционный директор Smart Spectrum, заявил, что умные устройства получат новые возможности при поддержке больших моделей. Мобильные телефоны + ИИ станут персональными интеллектуальными помощниками, ПК + ИИ превратятся в новые инструменты производительности, а автомобили + ИИ сделают автомобиль умным третьим жизненным пространством для людей. Разумеется, Большая модель откроет возможности не только для мобильных телефонов, ПК и автомобилей, но и принесет пользу всем видам интеллектуальных устройств. Непрерывная эволюция Большой модели заложила прочный фундамент для Agent, чтобы изменить опыт взаимодействия человека и автомобиля.

Благодаря постоянному повышению производительности и вычислительной мощности конечных устройств, адаптации моделей для устройств с искусственным интеллектом и появлению архитектуры совместной работы с гомологией конечных облаков, Agent не только изменяет пользовательский опыт в операционных системах и приложениях, но и распространяет его на все виды умных устройств, от мобильных телефонов до компьютеров, автомобилей, очков, домов и всевозможных устройств, расположенных на границе, - все виды устройств с искусственным интеллектом стремятся к появлению.

Ван Цзуо-цзянь, технический директор по ИИ компании Glory, Чжун Хуай-шэн, руководитель отдела интеллектуальной экологии ASUS AIPC, Лиан Лэй, руководитель отдела интеллектуальной голосовой связи/интеллектуального бизнеса Xiaopeng Automobile Cockpit, Ван Сателлит, руководитель отдела технологий ИИ продуктов Qualcomm в Китае, и Гао Ю, генеральный директор технологического отдела Intel в Китае, как клиенты и партнеры Smart Spectrum, поделились своими наработками и взглядами на интеллектуальные терминалы, соответственно, с разных точек зрения.

Развитие Big Model и Agent не только открывает пользователям новую парадигму умных устройств в эпоху ИИ, но и означает расширение посадочной площадки для технологии Big Model. В ближайшем будущем мы увидим взаимосвязанность и безграничные возможности устройств, основанных на искусственном интеллекте, - от умных устройств до умных сетей. В этом процессе Smart Spectrum также предоставит ряд продуктов и возможностей, чтобы помочь умным устройствам принять большие модели и ускорить наступление новой эры устройств, основанных на ИИ.

Адрес приложения AutoGLM

Подайте заявку на участие в программе AutoGLM Insider's Tipster

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Sesame выпускает модель разговорной речи CSM: повышение естественности голосового взаимодействия с ИИ

Новости ИИ

1 год назад

058.6K

OpenAI 推出 DeepResearch ，利用o3模型进行深度研究的智能体

OpenAI запускает DeepResearch - интеллектуальную систему для глубоких исследований с использованием моделей o3

Новости ИИ

1 год назад

060.4K

Tencent имеет доступ к DeepSeek-R1, который можно использовать бесплатно! Гибрид сказал: нет ли любви?

Новости ИИ

1 год назад

049.1K

Выпущен Qwen2.5-VL: поддержка понимания длинного видео, визуальная локализация, структурированный вывод, возможность тонкой настройки с открытым исходным кодом

Новости ИИ

1 год назад

0135.6K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Smart Spectrum выпускает AutoGLM, автономного агента для выполнения задач: на этот раз агент позволяет активно управлять всеми видами устройств для выполнения задач

Новое обновление AutoGLM: задача усложняется

GLM-PC приглашение к тестированию: технологическая разведка для компьютеров без водителя

Большие модели из чата в акт

Новая парадигма для умных устройств в эпоху искусственного интеллекта

Адрес приложения AutoGLM

Технология смены названия + на основе кожи: "360 AI search" переименован в "nano search" и имитирует интерфейс KIMI

Новый выпуск｜Copilot + Agents - новая эра интеллектуальной разработки с низким уровнем кода.

Похожие статьи

Sesame выпускает модель разговорной речи CSM: повышение естественности голосового взаимодействия с ИИ

OpenAI запускает DeepResearch - интеллектуальную систему для глубоких исследований с использованием моделей o3

Tencent имеет доступ к DeepSeek-R1, который можно использовать бесплатно! Гибрид сказал: нет ли любви?

Выпущен Qwen2.5-VL: поддержка понимания длинного видео, визуальная локализация, структурированный вывод, возможность тонкой настройки с открытым исходным кодом

Нет комментариев

Последние коллекции

Последние статьи

Smart Spectrum выпускает AutoGLM, автономного агента для выполнения задач: на этот раз агент позволяет активно управлять всеми видами устройств для выполнения задач

Новое обновление AutoGLM: задача усложняется

GLM-PC приглашение к тестированию: технологическая разведка для компьютеров без водителя

Большие модели из чата в акт

Новая парадигма для умных устройств в эпоху искусственного интеллекта

Адрес приложения AutoGLM

Технология смены названия + на основе кожи: "360 AI search" переименован в "nano search" и имитирует интерфейс KIMI

Новый выпуск｜Copilot + Agents - новая эра интеллектуальной разработки с низким уровнем кода.

Похожие статьи

Sesame выпускает модель разговорной речи CSM: повышение естественности голосового взаимодействия с ИИ

OpenAI запускает DeepResearch - интеллектуальную систему для глубоких исследований с использованием моделей o3

Tencent имеет доступ к DeepSeek-R1, который можно использовать бесплатно! Гибрид сказал: нет ли любви?

Выпущен Qwen2.5-VL: поддержка понимания длинного видео, визуальная локализация, структурированный вывод, возможность тонкой настройки с открытым исходным кодом

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи