일반 소개
UI-TARS 데스크톱은 바이트댄스에서 개발한 UI-TARS(시각 언어 모델)를 기반으로 한 그래픽 인터페이스 에이전트 애플리케이션입니다. 이 애플리케이션을 통해 사용자는 자연어를 통해 컴퓨터를 제어하여 보다 직관적이고 효율적인 인간-컴퓨터 상호작용을 할 수 있으며, UI-TARS 데스크톱은 크로스 플랫폼 운영을 지원하고 Windows 및 macOS 시스템과 호환되며 실시간 피드백 및 상태 표시 기능을 제공합니다. 사용자는 간단한 음성 명령을 통해 스크린샷, 시각 인식, 정밀한 마우스 및 키보드 제어 등의 작업을 완료할 수 있어 컴퓨터 작업의 편의성과 지능을 크게 향상시킬 수 있습니다.

기능 목록
- 자연어 제어: 음성 명령을 통한 컴퓨터 작동 제어
- 스크린샷 및 시각적 인식: 스크린샷 및 이미지 인식 기능 지원
- 정밀한 마우스 및 키보드 제어: 고정밀 마우스 및 키보드 조작이 가능합니다.
- 크로스 플랫폼 지원: Windows 및 macOS와 호환됩니다.
- 실시간 피드백 및 상태 표시: 운영에 대한 실시간 피드백 및 상태 업데이트를 제공합니다.
도움말 사용
설치 프로세스
MacOS
- 최신 버전의 UI-TARS 데스크톱 앱을 다운로드하세요.
- UI-TARS 애플리케이션을 애플리케이션 폴더로 드래그합니다.
- macOS 시스템 설정에서 UI-TARS 권한을 활성화합니다:
- 시스템 설정 -> 개인정보 보호 및 보안 -> 접근성
- 시스템 설정 -> 개인정보 보호 및 보안 -> 화면 녹화
- 애플리케이션이 손상된 경우 터미널에서 사용할 수 있는 UI-TARS 애플리케이션을 엽니다.
sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
수정.
Windows(컴퓨터)
- 최신 버전의 UI-TARS 데스크톱 앱을 다운로드하세요.
- 애플리케이션을 실행하고 지시에 따라 설치를 완료합니다.
사용 가이드라인
- UI-TARS 애플리케이션을 열면 사용자는 기본 인터페이스를 볼 수 있습니다.
- 메인 인터페이스에서 사용자는 음성 명령을 통해 날씨 정보 확인, 트윗 보내기 등 다양한 작업을 수행할 수 있습니다.
- 이 애플리케이션은 HuggingFace(클라우드) 및 Ollama(로컬)에서 배포한 시각 언어 모델(VLM)을 지원하며, 신속한 배포를 위해 HuggingFace 추론 엔드포인트를 사용할 것을 권장합니다.
- 사용자는 제공된 GUI 모델 배포 가이드를 참조하여 모델을 배포할 수 있습니다.
주요 기능
자연어 제어
- 기본 인터페이스에서 마이크 아이콘을 탭하여 음성 입력을 시작합니다.
- "브라우저를 열고 날씨를 검색해줘"와 같은 명령을 말합니다.
- 애플리케이션은 지침에 따라 해당 작업을 수행하고 인터페이스에 결과를 표시합니다.
스크린샷 및 시각적 인식
- 기본 인터페이스에서 '스크린샷' 기능을 선택합니다.
- 마우스를 사용하여 스크린샷을 찍으려는 영역을 선택합니다.
- 앱이 스크린샷의 내용을 자동으로 인식하여 결과를 표시합니다.
정밀한 마우스 및 키보드 제어
- 기본 인터페이스에서 '마우스 제어' 또는 '키보드 제어' 기능을 선택합니다.
- 음성 명령을 사용하거나 수동으로 명령을 입력하여 마우스 움직임과 키보드 입력을 제어할 수 있습니다.
- 애플리케이션은 지침에 따라 적절한 작업을 수행하고 실시간 피드백을 제공합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...