OmniParser: 대형 모델을 쉽게 이해하고 조작할 수 있도록 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱합니다.

51.9K 00

일반 소개

OmniParser는 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 구문 분석하기 위해 Microsoft에서 개발한 도구입니다. 이 도구는 해당 인터페이스 영역에서 정확한 동작을 생성하는 GPT-4V의 기능을 크게 향상시키며, OmniParser는 광범위한 대규모 언어 모델을 지원할 뿐만 아니라 Windows 11 가상 머신과 함께 사용하여 강력한 인터페이스 제어 기능을 제공할 수 있습니다. 최신 버전의 OmniParser V2.0은 성능과 지연 시간이 크게 개선된 인터페이스 구문 분석을 위한 선도적인 도구입니다.

기능 목록

사용자 인터페이스 스크린샷 구문 분석: 스크린샷을 이해하고 조작하기 쉬운 구조화된 요소로 변환합니다.
여러 대규모 언어 모델 지원: OpenAI, DeepSeek, Qwen 및 Anthropic을 포함합니다.
Windows 11 VM 제어: 시각적 모델링과 결합하여 VM을 완벽하게 제어할 수 있습니다.
상세한 아이콘 감지 및 기능 설명 제공: 더 세밀한 아이콘 감지 및 인터랙션 요소 예측을 지원합니다.
고성능 및 짧은 지연 시간: 최신 버전은 성능과 지연 시간이 크게 개선되었습니다.

도움말 사용

설치 프로세스

가상 환경을 만들고 활성화합니다:

   conda create -n "omni" python==3.12
conda activate omni

필요한 종속성을 설치합니다:

   pip install -r requirements.txt

V2 버전의 가중치 파일을 다운로드하여 지정된 폴더에 넣습니다:

   rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

사용 프로세스

Gradio 데모를 실행합니다:

   python gradio_demo.py

사용자 인터페이스 스크린샷 구문 분석하기:
- 사용자 인터페이스의 스크린샷을 업로드하거나 찍습니다.
- 옴니파서를 사용하여 스크린샷을 구문 분석하고 구조화된 인터페이스 요소를 생성하세요.
Windows 11 가상 머신 제어:
- 시각적 모델과 결합하여 가상 머신을 완벽하게 제어할 수 있습니다.
- 광범위한 대규모 언어 모델을 지원하여 작업의 정확성과 효율성을 개선합니다.

세부 기능 작동

아이콘 감지옴니파서: 인터페이스에서 아이콘을 감지하고 해당 기능에 대한 자세한 설명을 제공하여 사용자가 빠르게 이해하고 조작할 수 있도록 도와줍니다.
인터랙션 요소 예측인터페이스의 어떤 요소가 대화형인지 예측하고 사용자 경험을 향상시킵니다.
고성능 분석최신 버전은 빠르고 효율적인 구문 분석을 위해 성능과 지연 시간이 크게 개선되었습니다.