Introdução geral
O OmniParser é uma ferramenta desenvolvida pela Microsoft para analisar as capturas de tela da interface do usuário em elementos estruturados e fáceis de entender. Essa ferramenta melhora significativamente a capacidade do GPT-4V de gerar ações precisas na área de interface correspondente. O OmniParser não apenas oferece suporte a uma ampla variedade de modelos de linguagem grandes, mas também pode ser usado em conjunto com a Máquina Virtual do Windows 11 para fornecer um controle de interface avançado. A versão mais recente do OmniParser V2.0 é a ferramenta líder para análise de interface com melhorias significativas de desempenho e latência.
Lista de funções
- Análise de capturas de tela da interface do usuário: transformação de capturas de tela em elementos estruturados que são fáceis de entender e manipular.
- Suporte a vários modelos de linguagem em grande escala: incluindo OpenAI, DeepSeek, Qwen e Anthropic.
- Controle de VMs do Windows 11: combinado com modelagem visual para controle total de VMs.
- Fornecer detecção detalhada de ícones e descrições funcionais: oferecer suporte à detecção mais precisa de ícones e à previsão de elementos de interação.
- Alto desempenho e baixa latência: a versão mais recente oferece melhorias significativas no desempenho e na latência.
Usando a Ajuda
Processo de instalação
- Criar e ativar um ambiente virtual:
conda create -n "omni" python==3.12
conda activate omni
- Instale as dependências necessárias:
pip install -r requirements.txt
- Faça o download da versão V2 do arquivo de pesos e coloque-o na pasta especificada:
rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir pesos; done
mv weights/icon_caption weights/icon_caption_florence
Processo de uso
- Execute a demonstração do Gradio:
python gradio_demo.py
- Análise de capturas de tela da interface do usuário:
- Faça upload ou tire uma captura de tela da interface do usuário.
- Use o OmniParser para analisar capturas de tela e gerar elementos de interface estruturados.
- Controle de máquinas virtuais do Windows 11:
- Combinado com um modelo visual, ele permite o controle total da máquina virtual.
- Oferece suporte a uma ampla variedade de modelos de linguagem em grande escala para melhorar a precisão e a eficiência das operações.
Operação detalhada da função
- Detecção de íconesO OmniParser detecta ícones na interface e fornece descrições detalhadas de suas funções para ajudar os usuários a entendê-los e operá-los rapidamente.
- Previsão de elementos de interaçãoPrever quais elementos da interface são interativos e aprimorar a experiência do usuário.
- Análise de alto desempenhoA versão mais recente oferece melhorias significativas no desempenho e na latência para garantir um processo de análise rápido e eficiente.