UI-TARS 데스크톱: 자연어를 사용하여 컴퓨터를 제어하는 데스크톱 인텔리전스 애플리케이션

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
18.8K 00

일반 소개

UI-TARS 데스크톱은 바이트댄스에서 개발한 UI-TARS(시각 언어 모델)를 기반으로 한 그래픽 인터페이스 에이전트 애플리케이션입니다. 이 애플리케이션을 통해 사용자는 자연어를 통해 컴퓨터를 제어하여 보다 직관적이고 효율적인 인간-컴퓨터 상호작용을 할 수 있으며, UI-TARS 데스크톱은 크로스 플랫폼 운영을 지원하고 Windows 및 macOS 시스템과 호환되며 실시간 피드백 및 상태 표시 기능을 제공합니다. 사용자는 간단한 음성 명령을 통해 스크린샷, 시각 인식, 정밀한 마우스 및 키보드 제어 등의 작업을 완료할 수 있어 컴퓨터 작업의 편의성과 지능을 크게 향상시킬 수 있습니다.

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

 

기능 목록

  • 자연어 제어: 음성 명령을 통한 컴퓨터 작동 제어
  • 스크린샷 및 시각적 인식: 스크린샷 및 이미지 인식 기능 지원
  • 정밀한 마우스 및 키보드 제어: 고정밀 마우스 및 키보드 조작이 가능합니다.
  • 크로스 플랫폼 지원: Windows 및 macOS와 호환됩니다.
  • 실시간 피드백 및 상태 표시: 운영에 대한 실시간 피드백 및 상태 업데이트를 제공합니다.

 

도움말 사용

설치 프로세스

MacOS

  1. 최신 버전의 UI-TARS 데스크톱 앱을 다운로드하세요.
  2. UI-TARS 애플리케이션을 애플리케이션 폴더로 드래그합니다.
  3. macOS 시스템 설정에서 UI-TARS 권한을 활성화합니다:
    • 시스템 설정 -> 개인정보 보호 및 보안 -> 접근성
    • 시스템 설정 -> 개인정보 보호 및 보안 -> 화면 녹화
  4. 애플리케이션이 손상된 경우 터미널에서 사용할 수 있는 UI-TARS 애플리케이션을 엽니다. sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app 수정.

Windows(컴퓨터)

  1. 최신 버전의 UI-TARS 데스크톱 앱을 다운로드하세요.
  2. 애플리케이션을 실행하고 지시에 따라 설치를 완료합니다.

사용 가이드라인

  1. UI-TARS 애플리케이션을 열면 사용자는 기본 인터페이스를 볼 수 있습니다.
  2. 메인 인터페이스에서 사용자는 음성 명령을 통해 날씨 정보 확인, 트윗 보내기 등 다양한 작업을 수행할 수 있습니다.
  3. 이 애플리케이션은 HuggingFace(클라우드) 및 Ollama(로컬)에서 배포한 시각 언어 모델(VLM)을 지원하며, 신속한 배포를 위해 HuggingFace 추론 엔드포인트를 사용할 것을 권장합니다.
  4. 사용자는 제공된 GUI 모델 배포 가이드를 참조하여 모델을 배포할 수 있습니다.

주요 기능

자연어 제어

  1. 기본 인터페이스에서 마이크 아이콘을 탭하여 음성 입력을 시작합니다.
  2. "브라우저를 열고 날씨를 검색해줘"와 같은 명령을 말합니다.
  3. 애플리케이션은 지침에 따라 해당 작업을 수행하고 인터페이스에 결과를 표시합니다.

스크린샷 및 시각적 인식

  1. 기본 인터페이스에서 '스크린샷' 기능을 선택합니다.
  2. 마우스를 사용하여 스크린샷을 찍으려는 영역을 선택합니다.
  3. 앱이 스크린샷의 내용을 자동으로 인식하여 결과를 표시합니다.

정밀한 마우스 및 키보드 제어

  1. 기본 인터페이스에서 '마우스 제어' 또는 '키보드 제어' 기능을 선택합니다.
  2. 음성 명령을 사용하거나 수동으로 명령을 입력하여 마우스 움직임과 키보드 입력을 제어할 수 있습니다.
  3. 애플리케이션은 지침에 따라 적절한 작업을 수행하고 실시간 피드백을 제공합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...