Introdução geral
O Agent TARS é uma inteligência de IA multimodal de código aberto da ByteDance, com recursos principais que ajudam os usuários a realizar tarefas complexas no computador, compreendendo visualmente o conteúdo da Web e combinando operações de linha de comando e sistema de arquivos. Em vez de exigir intervenção manual como as ferramentas tradicionais, ela pode automatizar tarefas do navegador, editar arquivos ou executar comandos. O site oferece downloads de aplicativos de desktop e documentação técnica para desenvolvedores ou usuários que precisam automatizar seu fluxo de trabalho. Atualmente, ele está em uma fase de visualização técnica e é compatível principalmente com o macOS. O Agent TARS tem como objetivo tornar as operações de computador mais inteligentes e eficientes. O projeto é baseado em Área de trabalho UI-TARS Proteção do navegador, benchmarking Manus .
Lista de funções
- Automação do navegadorAutomatize a pesquisa, o clique, o preenchimento de formulários, etc., reconhecendo visualmente os elementos da página da Web.
- Integração da linha de comandoSuporte à execução de comandos do sistema diretamente para executar scripts ou gerenciar tarefas em segundo plano.
- operação do sistema de arquivosCapacidade de ler, editar ou gerar arquivos, processar dados ou salvar resultados.
- Planejamento e implementação da missãoDivisão de tarefas complexas e automatização da conclusão passo a passo para apoiar pesquisas aprofundadas ou trabalhos repetitivos.
- interação multimodalCombinação de entrada de imagem, texto e código para se adaptar a diferentes tipos de tarefas.
- Extensão da ferramentaIntegração de pesquisa, edição de documentos e protocolo de contexto de modelo (MCP) para aumentar a flexibilidade funcional.
- Suporte a aplicativos de desktopInterface: Fornece uma interface para mostrar o processo de operação, o que é conveniente para os usuários visualizarem e ajustarem em tempo real.
Usando a Ajuda
O uso do Agent TARS é dividido em duas partes: instalação e operação. Abaixo estão as etapas detalhadas para que você possa começar rapidamente.
Processo de instalação
- Download do aplicativo para desktop
Abra o site oficial https://agent-tars.com/ e clique no botão "Download" para acessar a página de lançamento do GitHub (https://github.com/bytedance/UI-TARS-desktop/). versões). Selecione a versão mais recente (por exemploAgentTARS-macOS-latest.dmg
O tamanho do arquivo é de cerca de várias dezenas de MB. O tamanho do arquivo é de cerca de várias dezenas de MB e leva de 1 a 5 minutos, dependendo da velocidade da rede. - Instalação no macOS
Quando o download estiver concluído, clique duas vezes em.dmg
uma janela de instalação será exibida. Arraste o ícone do Agent TARS para a pasta Aplicativos. O processo de instalação levará apenas alguns segundos. Depois de concluído, localize o Agent TARS em Aplicativos e clique em Abrir. - Configuração de permissões
Na primeira vez que iniciar o macOS, você será solicitado a conceder acesso à Acessibilidade. Clique em "System Settings > Privacy & Security > Accessibility" (Configurações do sistema > Privacidade e segurança > Acessibilidade), localize o Agent TARS e ative-o. Isso permite que ele controle a tela e o teclado. - Modelos de configuração e APIs
Depois de abrir o aplicativo, clique no botão Settings (Configurações) no canto inferior esquerdo para acessar a página de configuração. Você precisa definir o provedor do modelo (por exemplo, Azure OpenAI) e a chave da API. Etapas específicas:- Selecione o provedor na Configuração do modelo.
- Digite sua chave de API (obtida de seu provedor).
- Se estiver usando o Azure, você também precisará preencher o campo
apiVersion
edeploymentName
responder cantandoendpoint
.
Depois de salvar, o aplicativo se conecta automaticamente ao modelo.
- Configuração de pesquisa opcional
Se você precisar da função de pesquisa na Web, vá para "Search Config", selecione o provedor de pesquisa e insira a chave da API. Salve quando terminar.
fluxo de trabalho
Uma vez instalado, o Agent TARS tem uma interface principal simples com caixas de entrada e áreas de exibição de ações. Veja a seguir o uso das principais funções.
Automação do navegador
- moverDigite uma tarefa na caixa de entrada, como "Search for the latest AI news and save the headlines" (Pesquisar as últimas notícias sobre IA e salvar as manchetes). Pressione enter e o Agent TARS abrirá o navegador embutido para pesquisar e extrair automaticamente as manchetes.
- demonstrarJanela direita: A janela direita exibe as ações do navegador em tempo real, como a abertura de páginas da Web e a rolagem de páginas.
- no finalQuando terminar, ele salvará o título como um arquivo de texto com o caminho exibido na parte inferior da interface.
Integração da linha de comando
- moverDigite um comando como "List files in current folder" (no macOS, é
ls -l
Comandos equivalentes para odir
). Pressione a tecla Enter e o Agent TARS chamará o terminal para execução. - demonstrarSaída do comando: A saída do comando aparece na parte inferior da interface para facilitar a visualização.
- Uso avançadoScripts complexos podem ser inseridos, como "verificar a memória do sistema e registrar", e o comando correspondente será executado e o resultado será salvo.
operação do sistema de arquivos
- moverDigite "Create a new file test.txt and write 'hello'" (Crie um novo arquivo test.txt e escreva 'hello'). Pressione Enter e o Agent TARS criará o arquivo e gravará o conteúdo.
- demonstrarO processo de operação será exibido na interface, e você poderá clicar no caminho para visualizar o arquivo após a conclusão.
- Editar arquivoDigite "open test.txt and add 'world'" e ele modificará o arquivo automaticamente.
Planejamento e implementação da missão
- moverAgent TARS: Insira uma tarefa complexa, como "Pesquise os recursos da versão mais recente do Python e organize a documentação". O Agent TARS divide a tarefa: pesquisa de dados, extração de informações, geração de documentação.
- demonstrarJanela direita: A janela direita mostra cada etapa da operação, como abrir uma página da Web e copiar texto.
- no finalEventualmente, gere o documento organizado e salve-o no caminho especificado.
colaboração homem-máquina
- Ajustes em tempo realDurante a execução da tarefa, você pode adicionar comandos à caixa de entrada, como "adicionar outro parágrafo de exemplo". O agente TARS ajustará sua operação de acordo com a nova entrada.
- Compartilhe os resultadosClique no botão "Share" (Compartilhar) e selecione "Local HTML" para gerar um arquivo de registro ou configure um URL de servidor remoto para fazer upload e compartilhar.
advertência
- Requisitos ambientaisNo momento, apenas o macOS é compatível, as versões para Windows e Linux ainda não foram lançadas.
- conexão de rede: É necessária uma rede estável para conectar modelos e serviços de pesquisa.
- ajustar os componentes durante o testeSe a função não funcionar (por exemplo, a pesquisa falha), verifique se a chave da API está correta ou entre na comunidade do Discord para obter ajuda (link no site oficial).
Com essas etapas, você pode usar facilmente o Agent TARS para tudo, desde a simples manipulação de arquivos até tarefas complexas de pesquisa.
cenário do aplicativo
- automação da web
Use o Agent TARS para navegar automaticamente na Web e extrair informações sobre notícias ou produtos. Por exemplo, digite "collect recent tech news headlines" e ele pesquisará e salvará os resultados para pesquisa de mercado ou agrupamento de informações. - Gerenciamento de tarefas
Planeje projetos complexos, como "fazer planos de viagem", ele pesquisa voos, hotéis e os organiza em documentos. Ideal para assistentes pessoais ou gerenciamento de projetos. - Assistência de código
Digite "Generate Python script to check file size" (Gerar script Python para verificar o tamanho do arquivo) e o Agent TARS escreverá e salvará o código, facilitando para os desenvolvedores a geração rápida de ferramentas. - análise de dados
Lida com dados em tempo real, como "Analisar dados de ações em uma página da Web e salvar uma tabela". Ele extrai dados e gera arquivos, adequados para análises financeiras ou de mercado.
QA
- O Agent TARS é gratuito?
Sim, é um projeto de código aberto e segue a licença Apache 2.0. O código e o aplicativo podem ser baixados e usados gratuitamente no GitHub. - Ele é compatível com o Windows?
No momento, apenas o macOS é compatível; as versões para Windows e Linux ainda estão em desenvolvimento, portanto, fique de olho no GitHub para obter atualizações. - É necessário ter conhecimento de programação?
Não há necessidade. Ele opera em linguagem natural e é acessível ao usuário comum. Mas saber programar pode fazer melhor uso da funcionalidade da linha de comando. - Como faço para corrigir o problema da função de pesquisa?
Verifique se a chave da API em "Search Config" está correta ou se a conexão de rede está funcionando. Você também pode participar da comunidade do Discord para fornecer feedback.