CogAgent: интеллектуальная модель визуального языка Smart Spectrum с открытым исходным кодом для автоматизации графических интерфейсов

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

66.6K 00

Общее введение

CogAgent - это визуальная языковая модель с открытым исходным кодом, разработанная исследовательской группой Tsinghua University Data Mining Research Group (THUDM) и предназначенная для автоматизации кроссплатформенных операций с графическим интерфейсом пользователя (GUI). Модель основана на CogVLM (GLM-4V-9B), поддерживает двуязычное взаимодействие на английском и китайском языках и способна выполнять задачи с помощью снимков экрана и естественного языка. CogAgent достигла ведущих результатов в задачах графического интерфейса пользователя на различных платформах и категориях, и подходит для широкого спектра вычислительных устройств, таких как Windows, macOS и Android. Его последняя версия, CogAgent-9B-20241220, предлагает значительные улучшения в восприятии графического интерфейса, точности рассуждений, полноте пространства операций и обобщенности задач.

CogAgent-9B-20241220 Модель основана на GLM-4V-9B, двуязычной базовой модели VLM с открытым исходным кодом. Благодаря сбору и оптимизации данных, многоступенчатому обучению и совершенствованию стратегии, модель CogAgent-9B-20241220 Значительные успехи были достигнуты в восприятии графического интерфейса пользователя, точности предсказания выводов, полноте пространства действий и способности к межзадачному обобщению. Модель поддерживает двуязычное (китайский и английский) взаимодействие, включая скриншоты и вербальный ввод. Эта версия модели CogAgent была использована в продукте GLM-PC компании Smart Spectrum AI.

Список функций

Понимание и обработка изображений высокого разрешения (поддерживает разрешение 1120x1120)
Возможность автоматизации интерфейса GUI
Кросс-платформенное взаимодействие интерфейсов
Обработка заданий с визуальными вопросами и ответами (VQA)
Понимание и анализ графиков (ChartQA)
Визуальные вопросы и ответы на документы (DocVQA)
Информационные визуальные вопросы и ответы (InfoVQA)
Понимание текста сцены (ST-VQA)
Визуальная викторина по общим знаниям (OK-VQA)

Использование помощи

1. конфигурация окружающей среды

1.1 Требования к фундаменту:

Python 3.8 или выше
Устройства GPU, поддерживаемые CUDA
Достаточный объем видеопамяти (рекомендуется не менее 16 ГБ)

1.2 Этапы установки:

# 克隆项目仓库
git clone https://github.com/THUDM/CogAgent.git
cd CogAgent
# 安装依赖
pip install -r requirements.txt

2. Загрузка и использование моделей

2.1 Загрузка модели:

Загрузите файл с весами моделей с платформы Hugging Face
Поддерживаются две версии: cogagent-18b и cogagent-9b.

2.2 Базовый процесс использования:

from cogagent import CogAgentModel
# 初始化模型
model = CogAgentModel.from_pretrained("THUDM/CogAgent")
# 加载图像
image_path = "path/to/your/image.jpg"
response = model.process_image(image_path)
# 执行GUI操作
gui_command = model.generate_gui_command(image_path, task_description)
model.execute_command(gui_command)

3. Описание использования основных функций

3.1 Функция понимания изображения:

Поддержка нескольких форматов изображений на входе
Работа с изображениями с разрешением до 1120x1120
Обеспечивает подробное описание и анализ содержания изображений

3.2 Автоматизация графического интерфейса:

Поддержка распознавания элементов интерфейса
Выполняйте щелчки, перетаскивание, ввод и другие операции.
Обеспечьте механизмы проверки операций и обработки ошибок

3.3 Визуальная функция вопросов и ответов:

Поддержка вопросов на естественном языке
Дайте подробные ответы на вопросы, связанные с изображениями
Может решать сложные проблемы, связанные с рассуждениями

4. Рекомендации по оптимизации производительности

4.1 Управление памятью:

Используйте соответствующий размер партии
Своевременно удаляйте неиспользуемые экземпляры моделей
Управление количеством одновременно выполняемых задач обработки

4.2 Оптимизация скорости рассуждений:

Ускоренный вывод с использованием точности FP16
Обеспечение количественной оценки модели для сокращения использования ресурсов
Оптимизация процесса предварительной обработки изображений

5. решение общих проблем

5.1 Проблемы с памятью:

Проверка использования видеопамяти
Изменение размера партий соответствующим образом
Использование техники градиентной контрольной точки

5.2 Проблемы с точностью:

Обеспечьте качество входного изображения
Настройка конфигурации параметров модели
Проверьте правильность выполнения этапов предварительной обработки

Основные функции

одношаговое управление: Выполнение одношаговых действий, таких как открытие приложения, нажатие кнопки и т. д., с помощью простых команд на естественном языке.
многоступенчатая операция: Поддержка сложных многоэтапных оперативных задач и автоматизированных рабочих процессов с помощью последовательных инструкций.
Запись и воспроизведение заданий: Запись истории работы пользователя и поддержка функции воспроизведения для отладки и оптимизации.
обработка ошибокВстроенный механизм обработки ошибок, который выявляет и обрабатывает распространенные ошибки в работе, обеспечивая бесперебойное выполнение задач.

Основные функции

Эффективное рассуждение: При точности BF16 для вывода модели требуется не менее 29 ГБ памяти GPU, рекомендуется использовать графический процессор A100 или H100.
Гибкое развертывание: Поддерживает развертывание на широком спектре аппаратных платформ, включая HuggingFace, ModelScope и WiseModel.
Поддержка общества: Активное сообщество разработчиков с открытым исходным кодом, предоставляющее техническую поддержку и ответы на вопросы, чтобы помочь разработчикам быстро начать работу.