CogAgent: интеллектуальная модель визуального языка Smart Spectrum с открытым исходным кодом для автоматизации графических интерфейсов

Общее введение

CogAgent - это визуальная языковая модель с открытым исходным кодом, разработанная исследовательской группой Tsinghua University Data Mining Research Group (THUDM) и предназначенная для автоматизации кроссплатформенных операций с графическим интерфейсом пользователя (GUI). Модель основана на CogVLM (GLM-4V-9B), поддерживает двуязычное взаимодействие на английском и китайском языках и способна выполнять задачи с помощью снимков экрана и естественного языка. CogAgent достигла ведущих результатов в задачах графического интерфейса пользователя на различных платформах и категориях, и подходит для широкого спектра вычислительных устройств, таких как Windows, macOS и Android. Его последняя версия, CogAgent-9B-20241220, предлагает значительные улучшения в восприятии графического интерфейса, точности рассуждений, полноте пространства операций и обобщенности задач.

CogAgent-9B-20241220 Модель основана на GLM-4V-9B, двуязычной базовой модели VLM с открытым исходным кодом. Благодаря сбору и оптимизации данных, многоступенчатому обучению и совершенствованию стратегии, модель CogAgent-9B-20241220 Значительные успехи были достигнуты в восприятии графического интерфейса пользователя, точности предсказания выводов, полноте пространства действий и способности к межзадачному обобщению. Модель поддерживает двуязычное (китайский и английский) взаимодействие, включая скриншоты и вербальный ввод. Эта версия модели CogAgent была использована в продукте GLM-PC компании Smart Spectrum AI.

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

 

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

 

Список функций

  • Понимание и обработка изображений высокого разрешения (поддерживает разрешение 1120x1120)
  • Возможность автоматизации интерфейса GUI
  • Кросс-платформенное взаимодействие интерфейсов
  • Обработка заданий с визуальными вопросами и ответами (VQA)
  • Понимание и анализ графиков (ChartQA)
  • Визуальные вопросы и ответы на документы (DocVQA)
  • Информационные визуальные вопросы и ответы (InfoVQA)
  • Понимание текста сцены (ST-VQA)
  • Визуальная викторина по общим знаниям (OK-VQA)

 

Использование помощи

1. конфигурация окружающей среды

1.1 Требования к фундаменту:

  • Python 3.8 или выше
  • Устройства GPU, поддерживаемые CUDA
  • Достаточный объем видеопамяти (рекомендуется не менее 16 ГБ)

1.2 Этапы установки:

# 克隆项目仓库
git clone https://github.com/THUDM/CogAgent.git
cd CogAgent
# 安装依赖
pip install -r requirements.txt

2. Загрузка и использование моделей

2.1 Загрузка модели:

  • Загрузите файл с весами моделей с платформы Hugging Face
  • Поддерживаются две версии: cogagent-18b и cogagent-9b.

2.2 Базовый процесс использования:

from cogagent import CogAgentModel
# 初始化模型
model = CogAgentModel.from_pretrained("THUDM/CogAgent")
# 加载图像
image_path = "path/to/your/image.jpg"
response = model.process_image(image_path)
# 执行GUI操作
gui_command = model.generate_gui_command(image_path, task_description)
model.execute_command(gui_command)

3. Описание использования основных функций

3.1 Функция понимания изображения:

  • Поддержка нескольких форматов изображений на входе
  • Работа с изображениями с разрешением до 1120x1120
  • Обеспечивает подробное описание и анализ содержания изображений

3.2 Автоматизация графического интерфейса:

  • Поддержка распознавания элементов интерфейса
  • Выполняйте щелчки, перетаскивание, ввод и другие операции.
  • Обеспечьте механизмы проверки операций и обработки ошибок

3.3 Визуальная функция вопросов и ответов:

  • Поддержка вопросов на естественном языке
  • Дайте подробные ответы на вопросы, связанные с изображениями
  • Может решать сложные проблемы, связанные с рассуждениями

4. Рекомендации по оптимизации производительности

4.1 Управление памятью:

  • Используйте соответствующий размер партии
  • Своевременно удаляйте неиспользуемые экземпляры моделей
  • Управление количеством одновременно выполняемых задач обработки

4.2 Оптимизация скорости рассуждений:

  • Ускоренный вывод с использованием точности FP16
  • Обеспечение количественной оценки модели для сокращения использования ресурсов
  • Оптимизация процесса предварительной обработки изображений

5. решение общих проблем

5.1 Проблемы с памятью:

  • Проверка использования видеопамяти
  • Изменение размера партий соответствующим образом
  • Использование техники градиентной контрольной точки

5.2 Проблемы с точностью:

  • Обеспечьте качество входного изображения
  • Настройка конфигурации параметров модели
  • Проверьте правильность выполнения этапов предварительной обработки

Основные функции

  • одношаговое управление: Выполнение одношаговых действий, таких как открытие приложения, нажатие кнопки и т. д., с помощью простых команд на естественном языке.
  • многоступенчатая операция: Поддержка сложных многоэтапных оперативных задач и автоматизированных рабочих процессов с помощью последовательных инструкций.
  • Запись и воспроизведение заданий: Запись истории работы пользователя и поддержка функции воспроизведения для отладки и оптимизации.
  • обработка ошибокВстроенный механизм обработки ошибок, который выявляет и обрабатывает распространенные ошибки в работе, обеспечивая бесперебойное выполнение задач.

Основные функции

  • Эффективное рассуждение: При точности BF16 для вывода модели требуется не менее 29 ГБ памяти GPU, рекомендуется использовать графический процессор A100 или H100.
  • Гибкое развертывание: Поддерживает развертывание на широком спектре аппаратных платформ, включая HuggingFace, ModelScope и WiseModel.
  • Поддержка общества: Активное сообщество разработчиков с открытым исходным кодом, предоставляющее техническую поддержку и ответы на вопросы, чтобы помочь разработчикам быстро начать работу.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...