Aprendizagem pessoal com IA
e orientação prática

UI-TARS Desktop: aplicativo da Intelligentsia para controle de computadores usando linguagem natural

Introdução geral

O UI-TARS Desktop é um aplicativo de agente de interface gráfica baseado no UI-TARS (Visual Language Model) desenvolvido pela ByteDance. O aplicativo permite que os usuários controlem os computadores por meio de linguagem natural para uma interação homem-computador mais intuitiva e eficiente. O UI-TARS Desktop oferece suporte à operação entre plataformas, é compatível com os sistemas Windows e macOS e fornece feedback em tempo real e funções de exibição de status. Os usuários podem concluir operações como capturas de tela, reconhecimento visual e controle preciso do mouse e do teclado por meio de comandos de voz simples, aumentando consideravelmente a conveniência e a inteligência das operações do computador.

UI-TARS Desktop: aplicativo da Intelligentsia para controle de computadores usando linguagem natural-1


 

Lista de funções

  • Controle de linguagem natural: controle das operações do computador por meio de comandos de voz
  • Captura de tela e reconhecimento visual: suporta funções de captura de tela e reconhecimento de imagem
  • Controle preciso do mouse e do teclado: permite a operação de alta precisão do mouse e do teclado
  • Suporte a várias plataformas: compatível com Windows e macOS.
  • Feedback em tempo real e exibição de status: fornece feedback em tempo real e atualizações de status sobre as operações

 

Usando a Ajuda

Processo de instalação

MacOS

  1. Faça o download da versão mais recente do aplicativo UI-TARS Desktop.
  2. Arraste o aplicativo UI-TARS para a pasta Aplicativos.
  3. Habilite as permissões UI-TARS nas configurações do sistema macOS:
    • Configurações do sistema -> Privacidade e segurança -> Acessibilidade
    • Configurações do sistema -> Privacidade e segurança -> Gravação de tela
  4. Abra o aplicativo UI-TARS, que pode ser usado no terminal se o aplicativo estiver danificado sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app A correção.

Windows (computador)

  1. Faça o download da versão mais recente do aplicativo UI-TARS Desktop.
  2. Execute o aplicativo e siga as instruções para concluir a instalação.

Diretrizes para uso

  1. Depois de abrir o aplicativo UI-TARS, os usuários podem ver a interface principal.
  2. Na interface principal, os usuários podem realizar várias operações por meio de comandos de voz, como obter informações meteorológicas e enviar tweets.
  3. O aplicativo é compatível com os modelos de linguagem visual (VLMs) implementados pelo HuggingFace (na nuvem) e pelo Ollama (localmente), e é recomendável usar o ponto de extremidade de inferência do HuggingFace para uma implementação rápida.
  4. Os usuários podem consultar o guia de implantação de modelos GUI fornecido para a implantação de modelos.

Funções principais

controle de linguagem natural

  1. Na interface principal, toque no ícone do microfone para iniciar a entrada de voz.
  2. Diga comandos, como "Abra seu navegador e pesquise o clima".
  3. O aplicativo executará a operação correspondente de acordo com a instrução e exibirá o resultado na interface.

Capturas de tela e reconhecimento visual

  1. Na interface principal, selecione a função "Screenshot" (Captura de tela).
  2. Use o mouse para selecionar a área da qual deseja fazer uma captura de tela.
  3. O aplicativo reconhecerá automaticamente o conteúdo da captura de tela e exibirá o resultado.

Controle preciso do mouse e do teclado

  1. Na interface principal, selecione a função "Mouse Control" (Controle do mouse) ou "Keyboard Control" (Controle do teclado).
  2. Use comandos de voz ou insira comandos manualmente para controlar o movimento do mouse e a entrada do teclado.
  3. O aplicativo executará as ações apropriadas de acordo com as instruções e fornecerá feedback em tempo real.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " UI-TARS Desktop: aplicativo da Intelligentsia para controle de computadores usando linguagem natural

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil