Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

OmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandes

Introdução geral

O OmniParser é uma ferramenta desenvolvida pela Microsoft para analisar as capturas de tela da interface do usuário em elementos estruturados e fáceis de entender. Essa ferramenta melhora significativamente a capacidade do GPT-4V de gerar ações precisas na área de interface correspondente. O OmniParser não apenas oferece suporte a uma ampla variedade de modelos de linguagem grandes, mas também pode ser usado em conjunto com a Máquina Virtual do Windows 11 para fornecer um controle de interface avançado. A versão mais recente do OmniParser V2.0 é a ferramenta líder para análise de interface com melhorias significativas de desempenho e latência.

OmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandes-1


 

Lista de funções

  • Análise de capturas de tela da interface do usuário: transformação de capturas de tela em elementos estruturados que são fáceis de entender e manipular.
  • Suporte a vários modelos de linguagem em grande escala: incluindo OpenAI, DeepSeek, Qwen e Anthropic.
  • Controle de VMs do Windows 11: combinado com modelagem visual para controle total de VMs.
  • Fornecer detecção detalhada de ícones e descrições funcionais: oferecer suporte à detecção mais precisa de ícones e à previsão de elementos de interação.
  • Alto desempenho e baixa latência: a versão mais recente oferece melhorias significativas no desempenho e na latência.

 

Usando a Ajuda

Processo de instalação

  1. Criar e ativar um ambiente virtual:
   conda create -n "omni" python==3.12
conda activate omni
  1. Instale as dependências necessárias:
   pip install -r requirements.txt
  1. Faça o download da versão V2 do arquivo de pesos e coloque-o na pasta especificada:
   rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir pesos; done
mv weights/icon_caption weights/icon_caption_florence

Processo de uso

  1. Execute a demonstração do Gradio:
   python gradio_demo.py
  1. Análise de capturas de tela da interface do usuário:
    • Faça upload ou tire uma captura de tela da interface do usuário.
    • Use o OmniParser para analisar capturas de tela e gerar elementos de interface estruturados.
  2. Controle de máquinas virtuais do Windows 11:
    • Combinado com um modelo visual, ele permite o controle total da máquina virtual.
    • Oferece suporte a uma ampla variedade de modelos de linguagem em grande escala para melhorar a precisão e a eficiência das operações.

Operação detalhada da função

  • Detecção de íconesO OmniParser detecta ícones na interface e fornece descrições detalhadas de suas funções para ajudar os usuários a entendê-los e operá-los rapidamente.
  • Previsão de elementos de interaçãoPrever quais elementos da interface são interativos e aprimorar a experiência do usuário.
  • Análise de alto desempenhoA versão mais recente oferece melhorias significativas no desempenho e na latência para garantir um processo de análise rápido e eficiente.
Conteúdo3
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandes

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil