Introdução geral
O UI-TARS Desktop é um aplicativo de agente de interface gráfica baseado no UI-TARS (Visual Language Model) desenvolvido pela ByteDance. O aplicativo permite que os usuários controlem os computadores por meio de linguagem natural para uma interação homem-computador mais intuitiva e eficiente. O UI-TARS Desktop oferece suporte à operação entre plataformas, é compatível com os sistemas Windows e macOS e fornece feedback em tempo real e funções de exibição de status. Os usuários podem concluir operações como capturas de tela, reconhecimento visual e controle preciso do mouse e do teclado por meio de comandos de voz simples, aumentando consideravelmente a conveniência e a inteligência das operações do computador.
Lista de funções
- Controle de linguagem natural: controle das operações do computador por meio de comandos de voz
- Captura de tela e reconhecimento visual: suporta funções de captura de tela e reconhecimento de imagem
- Controle preciso do mouse e do teclado: permite a operação de alta precisão do mouse e do teclado
- Suporte a várias plataformas: compatível com Windows e macOS.
- Feedback em tempo real e exibição de status: fornece feedback em tempo real e atualizações de status sobre as operações
Usando a Ajuda
Processo de instalação
MacOS
- Faça o download da versão mais recente do aplicativo UI-TARS Desktop.
- Arraste o aplicativo UI-TARS para a pasta Aplicativos.
- Habilite as permissões UI-TARS nas configurações do sistema macOS:
- Configurações do sistema -> Privacidade e segurança -> Acessibilidade
- Configurações do sistema -> Privacidade e segurança -> Gravação de tela
- Abra o aplicativo UI-TARS, que pode ser usado no terminal se o aplicativo estiver danificado
sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
A correção.
Windows (computador)
- Faça o download da versão mais recente do aplicativo UI-TARS Desktop.
- Execute o aplicativo e siga as instruções para concluir a instalação.
Diretrizes para uso
- Depois de abrir o aplicativo UI-TARS, os usuários podem ver a interface principal.
- Na interface principal, os usuários podem realizar várias operações por meio de comandos de voz, como obter informações meteorológicas e enviar tweets.
- O aplicativo é compatível com os modelos de linguagem visual (VLMs) implementados pelo HuggingFace (na nuvem) e pelo Ollama (localmente), e é recomendável usar o ponto de extremidade de inferência do HuggingFace para uma implementação rápida.
- Os usuários podem consultar o guia de implantação de modelos GUI fornecido para a implantação de modelos.
Funções principais
controle de linguagem natural
- Na interface principal, toque no ícone do microfone para iniciar a entrada de voz.
- Diga comandos, como "Abra seu navegador e pesquise o clima".
- O aplicativo executará a operação correspondente de acordo com a instrução e exibirá o resultado na interface.
Capturas de tela e reconhecimento visual
- Na interface principal, selecione a função "Screenshot" (Captura de tela).
- Use o mouse para selecionar a área da qual deseja fazer uma captura de tela.
- O aplicativo reconhecerá automaticamente o conteúdo da captura de tela e exibirá o resultado.
Controle preciso do mouse e do teclado
- Na interface principal, selecione a função "Mouse Control" (Controle do mouse) ou "Keyboard Control" (Controle do teclado).
- Use comandos de voz ou insira comandos manualmente para controlar o movimento do mouse e a entrada do teclado.
- O aplicativo executará as ações apropriadas de acordo com as instruções e fornecerá feedback em tempo real.