OmniParser: разбор скриншотов пользовательского интерфейса на структурированные элементы для облегчения понимания и манипулирования большими моделями

Общее введение

OmniParser - это инструмент, разработанный компанией Microsoft для разбора скриншотов пользовательского интерфейса на структурированные и понятные элементы. Этот инструмент значительно улучшает способность GPT-4V генерировать точные действия в соответствующей области интерфейса. OmniParser не только поддерживает широкий спектр больших языковых моделей, но и может использоваться совместно с виртуальной машиной Windows 11 для обеспечения мощного управления интерфейсом. Последняя версия OmniParser V2.0 - это ведущий инструмент для разбора интерфейсов со значительными улучшениями производительности и задержки.

OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

 

Список функций

  • Разбор скриншотов пользовательского интерфейса: преобразование скриншотов в структурированные элементы, которые легко понять и которыми легко манипулировать.
  • Поддержка нескольких крупномасштабных языковых моделей: OpenAI, DeepSeek, Qwen и Anthropic.
  • Управление виртуальными машинами Windows 11: в сочетании с визуальным моделированием для полного контроля над виртуальными машинами.
  • Обеспечение детального обнаружения иконок и функциональных описаний: поддержка более тонкого обнаружения иконок и предсказания элементов взаимодействия.
  • Высокая производительность и низкая задержка: последняя версия предлагает значительные улучшения в производительности и задержке.

 

Использование помощи

Процесс установки

  1. Создайте и активируйте виртуальную среду:
   conda create -n "omni" python==3.12
conda activate omni
  1. Установите необходимые зависимости:
   pip install -r requirements.txt
  1. Скачайте V2-версию файла весов и поместите ее в указанную папку:
   rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

Процесс использования

  1. Запустите демонстрационную версию Gradio:
   python gradio_demo.py
  1. Разбор скриншотов пользовательского интерфейса:
    • Загрузите или сделайте снимок экрана пользовательского интерфейса.
    • Используйте OmniParser для анализа скриншотов и создания структурированных элементов интерфейса.
  2. Управление виртуальными машинами Windows 11:
    • В сочетании с визуальной моделью это позволяет полностью контролировать виртуальную машину.
    • Поддержка широкого спектра крупномасштабных языковых моделей для повышения точности и эффективности операций.

Детальное управление функциями

  • Обнаружение значковOmniParser обнаруживает иконки в интерфейсе и предоставляет подробное описание их функций, чтобы помочь пользователям быстро понять и использовать их.
  • Прогнозирование элементов взаимодействия: Предскажите, какие элементы интерфейса являются интерактивными и улучшают впечатления пользователя.
  • Высокоэффективный анализ: В последней версии значительно улучшена производительность и задержка, что обеспечивает быстрый и эффективный разбор.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...