CogAgent : le modèle de langage visuel intelligent Open Source de Smart Spectrum pour l'automatisation des interfaces graphiques

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

12.8K 00

Introduction générale

CogAgent est un modèle de langage visuel open-source développé par le groupe de recherche sur l'exploration des données de l'université de Tsinghua (THUDM), visant à automatiser les opérations d'interface utilisateur graphique (GUI) multiplateforme. Le modèle est basé sur CogVLM (GLM-4V-9B) et prend en charge les interactions bilingues en anglais et en chinois. Le modèle est basé sur CogVLM (GLM-4V-9B), prend en charge les interactions bilingues en anglais et en chinois, et est capable d'exécuter des tâches via des captures d'écran et le langage naturel.CogAgent a obtenu des performances de premier plan dans les tâches d'interface utilisateur graphique sur plusieurs plateformes et catégories, et convient à une large gamme d'appareils informatiques tels que Windows, macOS et Android. Sa dernière version, CogAgent-9B-20241220, offre des améliorations significatives dans la perception de l'interface graphique, la précision du raisonnement, la complétude de l'espace opérationnel et la généralisation des tâches.

CogAgent-9B-20241220 Le modèle est basé sur GLM-4V-9B, un modèle de base VLM bilingue à source ouverte. Grâce à la collecte et à l'optimisation des données, à la formation en plusieurs étapes et à l'amélioration de la stratégie, le modèle CogAgent-9B-20241220 Des progrès significatifs ont été réalisés dans la perception des interfaces graphiques, la précision de la prédiction de l'inférence, l'exhaustivité de l'espace d'action et les capacités de généralisation inter-tâches. Le modèle prend en charge l'interaction bilingue (chinois et anglais), y compris les captures d'écran et les entrées verbales. Cette version du modèle CogAgent a été utilisée dans le produit GLM-PC de Smart Spectrum AI.

Liste des fonctions

Compréhension et traitement d'images à haute résolution (résolution de 1120x1120)
Capacité d'automatisation de l'interface GUI
Interaction avec l'interface compatible avec plusieurs plates-formes
Traitement des tâches de questions-réponses visuelles (VQA)
Compréhension et analyse des graphiques (ChartQA)
Document Visual Question and Answer (DocVQA)
Questions et réponses visuelles sur l'information (InfoVQA)
Compréhension du texte de la scène (ST-VQA)
Quiz visuel de connaissances générales (OK-VQA)

Utiliser l'aide

1. configuration de l'environnement

1.1 Exigences relatives aux fondations :

Python 3.8 ou supérieur
Périphériques GPU pris en charge par CUDA
Espace mémoire vidéo suffisant (au moins 16 Go recommandés)

1.2 Étapes de l'installation :

# 克隆项目仓库
git clone https://github.com/THUDM/CogAgent.git
cd CogAgent
# 安装依赖
pip install -r requirements.txt

2. chargement et utilisation du modèle

2.1 Téléchargement du modèle :

Télécharger le fichier de poids du modèle à partir de la plateforme Hugging Face
Deux versions sont prises en charge : cogagent-18b et cogagent-9b.

2.2 Processus d'utilisation de base :

from cogagent import CogAgentModel
# 初始化模型
model = CogAgentModel.from_pretrained("THUDM/CogAgent")
# 加载图像
image_path = "path/to/your/image.jpg"
response = model.process_image(image_path)
# 执行GUI操作
gui_command = model.generate_gui_command(image_path, task_description)
model.execute_command(gui_command)

3. description de l'utilisation des principales fonctions

3.1 Fonction de compréhension de l'image :

Prise en charge de plusieurs formats d'image
Traite les images jusqu'à une résolution de 1120x1120
Fournit une description et une analyse détaillées du contenu de l'image

3.2 Automatisation de l'interface graphique :

Aide à la reconnaissance des éléments d'interface
Effectuer des opérations de clic, de glisser-déposer, de saisie et autres.
Fournir des mécanismes de validation des opérations et de traitement des erreurs

3.3 Fonction de question-réponse visuelle :

Prise en charge des questions en langage naturel
Fournir des réponses détaillées sur les images
Peut gérer des problèmes de raisonnement complexes

4) Recommandations pour l'optimisation des performances

4.1 Gestion de la mémoire :

Utiliser la taille de lot appropriée
Nettoyer en temps utile les instances de modèles inutilisées
Contrôler le nombre de tâches de traitement simultanées

4.2 Optimisation de la vitesse de raisonnement :

Inférence accélérée utilisant la précision FP16
Permettre la quantification du modèle pour réduire l'utilisation des ressources
Optimiser le processus de prétraitement des images

5. la résolution des problèmes courants

5.1 Problèmes de mémoire :

Vérification de l'utilisation de la mémoire vidéo
Redimensionner les lots de manière appropriée
Utiliser la technique du point de contrôle du gradient

5.2 Problèmes de précision :

Assurer la qualité de l'image d'entrée
Ajustement de la configuration des paramètres du modèle
Vérifier que les étapes de prétraitement sont correctes

Principales fonctions

opération en une étapeLes commandes en langage naturel : effectuer des actions en une seule étape, comme ouvrir une application ou cliquer sur un bouton, par exemple, à l'aide de commandes simples en langage naturel.
opération en plusieurs étapesLes tâches opérationnelles complexes à plusieurs étapes et les flux de travail automatisés sont pris en charge par le biais d'instructions séquentielles.
Enregistrement et lecture des tâchesLes fonctions d'enregistrement de l'historique des opérations de l'utilisateur et la fonction de lecture pour le débogage et l'optimisation sont prises en charge.
traitement des erreursLe système de gestion des erreurs : Mécanisme intégré de gestion des erreurs qui identifie et traite les erreurs opérationnelles courantes afin d'assurer une exécution sans heurts des tâches.

Fonctions vedettes

Raisonnement efficacePour une précision de BF16, l'inférence du modèle nécessite au moins 29 Go de mémoire GPU, et il est recommandé d'utiliser un GPU A100 ou H100.
Déploiement flexibleLe système de gestion de l'information de la Commission européenne (CEI) est un système de gestion de l'information de la Commission européenne (CEI) qui permet le déploiement sur une large gamme de plates-formes matérielles, y compris HuggingFace, ModelScope et WiseModel.
Soutien communautaireLe site Web de la Commission européenne est une source d'informations et de conseils pour les développeurs qui souhaitent se lancer rapidement.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

MuseV+Muse Talk：完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk : Cadre complet de génération de vidéos humaines numériques - du portrait à la vidéo - de la pose à la vidéo - de la synchronisation labiale

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Digital Man # Synchronisation des ports

Il y a 9 mois

019.9K

Wordware : construire des applications d'intelligence artificielle en utilisant la modularité du langage naturel

Dernières ressources sur l'IA # Flux de travail à code bas

Il y a 7 mois

011.1K

LensGo : Créer des styles uniques de vidéo en toute simplicité|Outil de conversion de styles vidéo

Dernières ressources sur l'IA # AI Image to Video # AI génération d'images en ligne # AI Video Conversion Style

il y a 1 an

013.4K

Framer AI : utilisation d'outils d'IA pour améliorer l'efficacité de la conception des sites web, compléter automatiquement le texte intégral, localiser les traductions

Dernières ressources sur l'IA # AI Page Design

Il y a 9 mois

011K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

CogAgent : le modèle de langage visuel intelligent Open Source de Smart Spectrum pour l'automatisation des interfaces graphiques

Introduction générale

Liste des fonctions