Smart Spectrum GLM-PC Open Experience: мультимодальный агент для автономной работы компьютера Обновлено

GLM-PC - это первый в мире готовый компьютерный агент, основанный на мультимодальной модели CogAgent. Он может "наблюдать" и "управлять" компьютером, как человек, и помогать пользователям эффективно выполнять различные компьютерные задачи.
С момента выхода версии GLM-PC v1.0 29 ноября 2024 года и ее открытой бета-версии мы продолжаем оптимизировать и совершенствовать ее, в частности, ввели режим "Глубокое мышление" и добавили функции, посвященные логическим рассуждениям и генерации кода. Кроме того, вМы также предлагаем поддержку систем Windows.
Скачать и испытать: https://cogagent.aminer.cn
Архитектура GLM-PC
В последние годы Агент все чаще обсуждается на уровне моделей и архитектур.
Возможности вызова инструментов с помощью больших языковых моделей (LLM) впервые показывают, как LLM могут использоваться в качестве агентов, органично интегрированных с человеческим производством, с хорошими возможностями обобщения и обучения на малых выборках, но сфера их применения ограничена типами общедоступных инструментов, с которыми можно взаимодействовать в текстовой форме.
согласно CogAgent Серия графических интерфейсных интеллектов (GUI Agents), основанных на модели визуального языка (VLM), представленная серией GUI Agents, предлагает новые пути для достижения полного взаимодействия в пространстве GUI через мультимодальное восприятие. Эти GUI-агенты, похожие на людей, могут визуально воспринимать элементы интерфейса и макеты, а также имитировать человека для выполнения мета-операций, таких как нажатие и ввод с клавиатуры, что значительно расширяет границы применения агента в виртуальном пространстве взаимодействия.
В то же время мультиагентные системы, такие как SWE-agent, демонстрируют потенциал мультиагентного сотрудничества, объединяя сильные стороны различных моделей для изучения планирования, рефлексии и самореализации на основе мультимоделирования.
Мы считаем, что развитие Агентов можно объяснить расширением возможностей модели и оптимизацией архитектуры сотрудничества.
Полный агент должен соответствовать следующим условиям:
- На уровне восприятия он способен принимать различные сигналы, такие как текст, изображения, видео и аудио;
- На уровне мышления - способность логически мыслить и планировать задачи (аналогично левому полушарию мозга) и способность эффективно воспринимать и гибко действовать (аналогично правому полушарию мозга);
- На уровне исполнения - способность выполнять космические операции с полным графическим интерфейсом, получать обратную связь от окружающей среды и самокорректироваться.
Основываясь на этих мыслях, в 2023 году мы представили модель CogAgent с открытым исходным кодом, которая восполняет пробел GUI Agent в мультимодальном восприятии; а в ноябре 2024 года GLM-PC v1.0 еще больше усиливает возможности восприятия, планирования и создания, а также достигает ограниченной самокоррекции.
Теперь новая версия GLM-PC опирается на разделение труда между "левым" и "правым" мозгом человека и достигает глубокого сочетания логического мышления и перцептивного познания через генерацию кода и понимание графического интерфейса, что дает ей возможность найти баланс между логикой и творчеством, чтобы помочь человеку в выполнении сложных задач.
За ним стоит мультимодальная модель CogAgent и модель кода, разработанная компанией Smart Spectrum. CodeGeex Новый GLM-PC управляет рабочими процессами и вызовами инструментов в коде. Новая версия GLM-PC управляет рабочими процессами и вызовами инструментов в виде кода, а также усиливает способность планировать, рассуждать и размышлять в режиме глубокого мышления, что позволяет стабильно и эффективно реагировать на сложные сценарии и задачи. В процессе выполнения GLM-PC способен ощущать многоуровневую обратную связь с окружающей средой и помогать размышлениям для эффективной самокоррекции и оптимизации.
Стоит отметить, что в декабре 2024 года мы выложили в открытый доступ полностью усовершенствованную модель CogAgent-9B-20241220, чтобы облегчить исследования по предварительно обученным GUI-агентам.
Агент "Левый мозг": генерация кода и выполнение логики
Левый мозг" GLM-PC отвечает за строгие логические рассуждения и выполнение задач. Его основные функции включают:
1. Планирование
GLM-PC способен быстро разработать подробную программу планирования задач на основе требований пользователя. Он всесторонне анализирует цели и доступные ресурсы, генерирует дорожную карту выполнения и автоматически разбивает крупные задачи на управляемые подзадачи, чтобы построить четкий маршрут выполнения.
2、 Выполнение циклов (выполнение циклов)
По окончании фазы планирования GLM-PC запускает модуль генерации кода для выполнения логического цикла, который шаг за шагом продвигается к завершению задачи. Этот циклический механизм обеспечивает точное выполнение задачи с высокой степенью автоматизации, в результате чего получается полный замкнутый цикл от входа до выхода без вмешательства человека.
Пример из практики: процесс покупки по принципу "одного окна
Например, GLM-PC может автоматически извлекать данные о товарах из фотографий, сохранять их в Excel и автоматически добавлять товары в корзину на Taobao, обеспечивая тем самым процесс покупки по принципу "одного окна".
Инструкция по эксплуатации: Получите информацию о продукте на картинке, создайте новый Excel на рабочем столе для хранения информации и добавьте информацию о продукте в корзину Taobao.
(Некоторое ускорение видео в тексте).
3. навыки длительного мышления: динамическое осмысление, исправление ошибок и оптимизация
Функция "левого мозга" GLM-PC не только генерирует статичный план, но и непрерывно оптимизирует решение, внося в реальном времени корректировки, рефлекторные поправки и самокоррекции на основе новой информации об окружающей среде в процессе выполнения. Конкретная производительность выглядит следующим образом:
- Гибкость при прерываниях: если процесс прерывается под воздействием внешних факторов, GLM-PC быстро перенастраивает логический путь, чтобы обеспечить бесперебойное выполнение задачи.
- Проактивное уточнение информации: при появлении недостающей информации GLM-PC будет активно взаимодействовать с пользователем для уточнения плана выполнения задачи, задавая вопросы.
Пример из практики: Эффективная обработка информации и социальное взаимодействие
Например, помогая пользователям обрабатывать информацию о "китайских новогодних фильмах" на сайте Xiaohongshu, GLM-PC может быстро найти и извлечь соответствующие данные, а также написать код для сохранения информации на компьютере. Если в сгенерированном коде есть ошибки, он может самостоятельно исправить их в соответствии с сообщением об ошибке.
Инструкция: найдите в Сяохуншу "Весенний фестиваль новогодних фильмов", процитируйте изображение из первого графического поста, отправьте изображение в групповой чат {GGG} на WeChat и спросите, какой фильм они хотели бы посмотреть.
Агент "Правый мозг": изображения и познание графического интерфейса
"Правый мозг" GLM-PC ориентирован на восприятие глубины и интерактивный опыт. Его основные функции включают:
- Понимание образов графического интерфейса: точная идентификация элементов графического интерфейса (например, кнопок, значков, макетов и т. д.) и понимание их функций и логики взаимодействия.
- Познание поведения пользователя: сочетая изучение пользовательского интерфейса и понимание исторической информации об операциях, он предоставляет пользователю интеллектуальные рекомендации по операциям для текущего интерфейса.
- Семантический разбор изображений: глубокий семантический анализ сложных изображений для извлечения ключевой информации, такой как текст, идентификаторы, тенденции и индикаторы в графиках визуализации данных.
- Слияние мультимодальной информации: объединение изображений и текстовой информации для формирования комплексного результата восприятия. Например, распознавание положения кнопок и текстовых надписей в пользовательском интерфейсе, что помогает "левому мозгу" формулировать точные планы действий.
Демонстрация: Эффективная организация и архивирование данных
Например, GLM-PC может найти и извлечь графический контент, связанный с "рейтингом ИИ" в Xiaohongshu. Затем с помощью самописного кода информация о компании сохраняется во вновь созданном файле Excel на рабочем столе, а текстовое содержание постов - в указанном документе Word, что обеспечивает эффективную организацию и архивирование пользовательских данных и повышает эффективность управления информацией.
Инструкция по эксплуатации: найдите "список автомобилей новой энергии" в первом посте с картинками и текстом на Xiaohongshu, процитируйте содержание картинки и текста первого поста, получите список информации на картинке и сохраните его в новом настольном Excel, а текстовое содержание поста поместите в новый настольный документ word под названием new-energy. и поместите текст поста в новый документ word под названием new-energy на рабочем столе.
Агент агентов: совместная работа левого и правого мозга
Эта модель, основанная на взаимодействии левого и правого полушарий мозга, позволяет GLM-PC не только решать сложные логические задачи, но и демонстрировать высокую адаптивность, креативность и обобщенность при решении открытых задач. Благодаря динамической оптимизации и учету контекста, GLM-PC может помочь пользователям найти более эффективные решения, особенно при обработке циклических задач, выполнении многоэтапных рассуждений и управлении длинными цепочками задач.
Пример из практики: пособие по изучению лексики английского языка для 6 класса
GLM-PC в качестве помощника по изучению лексики английского языка 6 класса может автоматически извлекать словарные слова 6 класса с указанных веб-сайтов, составлять предложения на основе этих слов и автоматически сохранять словарные слова и предложения в новом документе Word под названием "Изучение лексики английского языка 6 класса".
Найдите 3 словарных слова в этом словаре 6 класса "https://www.dxsbb.com/news/277.html", затем составьте предложение для каждого слова, вставьте словарные слова и соответствующие предложения в новый документ Word и сохраните его как "Grade 6 English Vocabulary Study".
Демонстрация: групповая отправка персонализированных благословений и новогодних поздравлений WeChat
GLM-PC может автоматически настраивать персональные пожелания на китайский Новый год и поздравительные картинки/видео для друзей из группы WeChat и отправлять их в группу одним нажатием кнопки, эффективно завершая праздничные поздравления.
Инструкция: процитируйте список участников группы "GGG" в WeChat и отправьте каждому из них сообщение с пожеланием 2025 китайского Нового года и картинку на тему Года Змеи.
Демонстрация: интеллектуальный запрос и планирование рейсов
GLM-PC может предоставить пользователям быструю информацию о рейсах, подобрать наиболее экономичные авиабилеты и синхронизировать с настройками календаря-напоминания Flybook, чтобы обеспечить единый сервис от запроса рейса, проверки билетов до составления расписания.
Инструкция: Помогите найти самый дешевый авиабилет из Шанхая в Пекин на 21 января на Ctrip; Помогите настроить календарь Flybook на 6 часов до вылета, с темой вылета в аэропорт и продолжительностью в полчаса.
Витрина: процесс извлечения и организации вопросов по математике в формате PDF
GLM-PC автоматически открывает PDF-файлы, извлекает указанное содержимое, сводит и сохраняет информацию в документе Word.
Инструкция: Помогите мне открыть файл Permutation and Binomial Theorem Exercise.pdf, процитировать первые несколько вопросов по математике, которые обобщают текущий интерфейс, и поместить их в новый документ Word на рабочем столе.
совместная работа
Мы изучаем возможность углубленного сотрудничества с такими известными производителями ПК, как Lenovo и Asus, чтобы совместно продвигать инновации и разработку AIPC (AI Personal Computer).
AIPC - это не только компьютер, но и новое применение AI Agent в персональных вычислениях, которое может обеспечить пользователям более эффективную и умную работу и жизнь.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...