Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Agente TARS: uma inteligência de código aberto que usa visão e comandos para operar computadores

Introdução geral

O Agent TARS é uma inteligência de IA multimodal de código aberto da ByteDance, com recursos principais que ajudam os usuários a realizar tarefas complexas no computador, compreendendo visualmente o conteúdo da Web e combinando operações de linha de comando e sistema de arquivos. Em vez de exigir intervenção manual como as ferramentas tradicionais, ela pode automatizar tarefas do navegador, editar arquivos ou executar comandos. O site oferece downloads de aplicativos de desktop e documentação técnica para desenvolvedores ou usuários que precisam automatizar seu fluxo de trabalho. Atualmente, ele está em uma fase de visualização técnica e é compatível principalmente com o macOS. O Agent TARS tem como objetivo tornar as operações de computador mais inteligentes e eficientes. O projeto é baseado em Área de trabalho UI-TARS Proteção do navegador, benchmarking Manus .

Agent TARS:使用视觉和命令操作电脑的开源智能体-1


 

Lista de funções

  • Automação do navegadorAutomatize a pesquisa, o clique, o preenchimento de formulários, etc., reconhecendo visualmente os elementos da página da Web.
  • Integração da linha de comandoSuporte à execução de comandos do sistema diretamente para executar scripts ou gerenciar tarefas em segundo plano.
  • operação do sistema de arquivosCapacidade de ler, editar ou gerar arquivos, processar dados ou salvar resultados.
  • Planejamento e implementação da missãoDivisão de tarefas complexas e automatização da conclusão passo a passo para apoiar pesquisas aprofundadas ou trabalhos repetitivos.
  • interação multimodalCombinação de entrada de imagem, texto e código para se adaptar a diferentes tipos de tarefas.
  • Extensão da ferramentaIntegração de pesquisa, edição de documentos e protocolo de contexto de modelo (MCP) para aumentar a flexibilidade funcional.
  • Suporte a aplicativos de desktopInterface: Fornece uma interface para mostrar o processo de operação, o que é conveniente para os usuários visualizarem e ajustarem em tempo real.

 

Usando a Ajuda

O uso do Agent TARS é dividido em duas partes: instalação e operação. Abaixo estão as etapas detalhadas para que você possa começar rapidamente.

Processo de instalação

  1. Download do aplicativo para desktop
    Abra o site oficial https://agent-tars.com/ e clique no botão "Download" para acessar a página de lançamento do GitHub (https://github.com/bytedance/UI-TARS-desktop/). versões). Selecione a versão mais recente (por exemplo AgentTARS-macOS-latest.dmgO tamanho do arquivo é de cerca de várias dezenas de MB. O tamanho do arquivo é de cerca de várias dezenas de MB e leva de 1 a 5 minutos, dependendo da velocidade da rede.
  2. Instalação no macOS
    Quando o download estiver concluído, clique duas vezes em .dmg uma janela de instalação será exibida. Arraste o ícone do Agent TARS para a pasta Aplicativos. O processo de instalação levará apenas alguns segundos. Depois de concluído, localize o Agent TARS em Aplicativos e clique em Abrir.
  3. Configuração de permissões
    Na primeira vez que iniciar o macOS, você será solicitado a conceder acesso à Acessibilidade. Clique em "System Settings > Privacy & Security > Accessibility" (Configurações do sistema > Privacidade e segurança > Acessibilidade), localize o Agent TARS e ative-o. Isso permite que ele controle a tela e o teclado.
  4. Modelos de configuração e APIs
    Depois de abrir o aplicativo, clique no botão Settings (Configurações) no canto inferior esquerdo para acessar a página de configuração. Você precisa definir o provedor do modelo (por exemplo, Azure OpenAI) e a chave da API. Etapas específicas:

    • Selecione o provedor na Configuração do modelo.
    • Digite sua chave de API (obtida de seu provedor).
    • Se estiver usando o Azure, você também precisará preencher o campo apiVersionedeploymentName responder cantando endpoint.
      Depois de salvar, o aplicativo se conecta automaticamente ao modelo.
  5. Configuração de pesquisa opcional
    Se você precisar da função de pesquisa na Web, vá para "Search Config", selecione o provedor de pesquisa e insira a chave da API. Salve quando terminar.

fluxo de trabalho

Uma vez instalado, o Agent TARS tem uma interface principal simples com caixas de entrada e áreas de exibição de ações. Veja a seguir o uso das principais funções.

Automação do navegador

  • moverDigite uma tarefa na caixa de entrada, como "Search for the latest AI news and save the headlines" (Pesquisar as últimas notícias sobre IA e salvar as manchetes). Pressione enter e o Agent TARS abrirá o navegador embutido para pesquisar e extrair automaticamente as manchetes.
  • demonstrarJanela direita: A janela direita exibe as ações do navegador em tempo real, como a abertura de páginas da Web e a rolagem de páginas.
  • no finalQuando terminar, ele salvará o título como um arquivo de texto com o caminho exibido na parte inferior da interface.

Integração da linha de comando

  • moverDigite um comando como "List files in current folder" (no macOS, é ls -l Comandos equivalentes para o dir). Pressione a tecla Enter e o Agent TARS chamará o terminal para execução.
  • demonstrarSaída do comando: A saída do comando aparece na parte inferior da interface para facilitar a visualização.
  • Uso avançadoScripts complexos podem ser inseridos, como "verificar a memória do sistema e registrar", e o comando correspondente será executado e o resultado será salvo.

operação do sistema de arquivos

  • moverDigite "Create a new file test.txt and write 'hello'" (Crie um novo arquivo test.txt e escreva 'hello'). Pressione Enter e o Agent TARS criará o arquivo e gravará o conteúdo.
  • demonstrarO processo de operação será exibido na interface, e você poderá clicar no caminho para visualizar o arquivo após a conclusão.
  • Editar arquivoDigite "open test.txt and add 'world'" e ele modificará o arquivo automaticamente.

Planejamento e implementação da missão

  • moverAgent TARS: Insira uma tarefa complexa, como "Pesquise os recursos da versão mais recente do Python e organize a documentação". O Agent TARS divide a tarefa: pesquisa de dados, extração de informações, geração de documentação.
  • demonstrarJanela direita: A janela direita mostra cada etapa da operação, como abrir uma página da Web e copiar texto.
  • no finalEventualmente, gere o documento organizado e salve-o no caminho especificado.

colaboração homem-máquina

  • Ajustes em tempo realDurante a execução da tarefa, você pode adicionar comandos à caixa de entrada, como "adicionar outro parágrafo de exemplo". O agente TARS ajustará sua operação de acordo com a nova entrada.
  • Compartilhe os resultadosClique no botão "Share" (Compartilhar) e selecione "Local HTML" para gerar um arquivo de registro ou configure um URL de servidor remoto para fazer upload e compartilhar.

advertência

  • Requisitos ambientaisNo momento, apenas o macOS é compatível, as versões para Windows e Linux ainda não foram lançadas.
  • conexão de rede: É necessária uma rede estável para conectar modelos e serviços de pesquisa.
  • ajustar os componentes durante o testeSe a função não funcionar (por exemplo, a pesquisa falha), verifique se a chave da API está correta ou entre na comunidade do Discord para obter ajuda (link no site oficial).

Com essas etapas, você pode usar facilmente o Agent TARS para tudo, desde a simples manipulação de arquivos até tarefas complexas de pesquisa.

 

cenário do aplicativo

  1. automação da web
    Use o Agent TARS para navegar automaticamente na Web e extrair informações sobre notícias ou produtos. Por exemplo, digite "collect recent tech news headlines" e ele pesquisará e salvará os resultados para pesquisa de mercado ou agrupamento de informações.
  2. Gerenciamento de tarefas
    Planeje projetos complexos, como "fazer planos de viagem", ele pesquisa voos, hotéis e os organiza em documentos. Ideal para assistentes pessoais ou gerenciamento de projetos.
  3. Assistência de código
    Digite "Generate Python script to check file size" (Gerar script Python para verificar o tamanho do arquivo) e o Agent TARS escreverá e salvará o código, facilitando para os desenvolvedores a geração rápida de ferramentas.
  4. análise de dados
    Lida com dados em tempo real, como "Analisar dados de ações em uma página da Web e salvar uma tabela". Ele extrai dados e gera arquivos, adequados para análises financeiras ou de mercado.

 

QA

  1. O Agent TARS é gratuito?
    Sim, é um projeto de código aberto e segue a licença Apache 2.0. O código e o aplicativo podem ser baixados e usados gratuitamente no GitHub.
  2. Ele é compatível com o Windows?
    No momento, apenas o macOS é compatível; as versões para Windows e Linux ainda estão em desenvolvimento, portanto, fique de olho no GitHub para obter atualizações.
  3. É necessário ter conhecimento de programação?
    Não há necessidade. Ele opera em linguagem natural e é acessível ao usuário comum. Mas saber programar pode fazer melhor uso da funcionalidade da linha de comando.
  4. Como faço para corrigir o problema da função de pesquisa?
    Verifique se a chave da API em "Search Config" está correta ou se a conexão de rede está funcionando. Você também pode participar da comunidade do Discord para fornecer feedback.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Agente TARS: uma inteligência de código aberto que usa visão e comandos para operar computadores
pt_BRPortuguês do Brasil