OmniParser : captures d'écran de l'interface utilisateur analysées en éléments structurés pour faciliter la compréhension et la manipulation de grands modèles.

Introduction générale

OmniParser est un outil développé par Microsoft pour analyser les captures d'écran de l'interface utilisateur en éléments structurés et faciles à comprendre. Cet outil améliore considérablement la capacité de GPT-4V à générer des actions précises dans la zone d'interface correspondante. OmniParser prend non seulement en charge un large éventail de modèles linguistiques, mais il peut également être utilisé conjointement avec la machine virtuelle Windows 11 pour fournir un contrôle puissant de l'interface. La dernière version d'OmniParser V2.0 est l'outil principal pour l'analyse d'interface avec des améliorations significatives en termes de performance et de latence.

OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

 

Liste des fonctions

  • Analyse des captures d'écran de l'interface utilisateur : transformation des captures d'écran en éléments structurés faciles à comprendre et à manipuler.
  • Prise en charge de plusieurs modèles linguistiques à grande échelle : notamment OpenAI, DeepSeek, Qwen et Anthropic.
  • Contrôle des VM Windows 11 : Combiné à la modélisation visuelle pour un contrôle total des VM.
  • Fournir une détection détaillée des icônes et des descriptions fonctionnelles : permettre une détection plus fine des icônes et une prédiction des éléments d'interaction.
  • Haute performance et faible latence : la dernière version offre des améliorations significatives en termes de performance et de latence.

 

Utiliser l'aide

Processus d'installation

  1. Créer et activer un environnement virtuel :
   conda create -n "omni" python==3.12
conda activate omni
  1. Installer les dépendances nécessaires :
   pip install -r requirements.txt
  1. Téléchargez la version V2 du fichier de poids et placez-la dans le dossier spécifié :
   rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

Processus d'utilisation

  1. Lancez la démo Gradio :
   python gradio_demo.py
  1. Analyse des captures d'écran de l'interface utilisateur :
    • Téléchargez ou faites une capture d'écran de l'interface utilisateur.
    • Utilisez OmniParser pour analyser les captures d'écran et générer des éléments d'interface structurés.
  2. Contrôle des machines virtuelles Windows 11 :
    • Combiné à un modèle visuel, il permet un contrôle total de la machine virtuelle.
    • Prise en charge d'un large éventail de modèles linguistiques à grande échelle pour améliorer la précision et l'efficacité des opérations.

Fonctionnement détaillé

  • Détection des icônesOmniParser : OmniParser détecte les icônes dans l'interface et fournit des descriptions détaillées de leurs fonctions pour aider les utilisateurs à les comprendre et à les utiliser rapidement.
  • Prédiction des éléments d'interactionPrévoir les éléments de l'interface qui sont interactifs et qui améliorent l'expérience de l'utilisateur.
  • Analyse de haute performanceLa dernière version offre des améliorations significatives en termes de performances et de latence afin de garantir une analyse rapide et efficace.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...