Introdução geral
O TankWork é uma estrutura de agente de desktop de código aberto projetada para permitir que a IA perceba e controle seu computador por meio de visão computacional e interação no nível do sistema. A estrutura permite que os agentes controlem diretamente os computadores por meio de comandos de voz e de texto, processem o conteúdo da tela em tempo real e forneçam feedback audiovisual contínuo e registros de ações. O TankWork é particularmente adequado para desenvolvedores e pesquisadores para ajudá-los a criar agentes de desktop autônomos que possam realmente entender, analisar e interagir com interfaces de computador.
Lista de funções
- Controle direto do computadorExecutar operações por meio de comandos de voz e texto
- Análise de visão computacionalProcessamento de conteúdo de tela em tempo real
- interação por vozProcessamento de linguagem natural com o ElevenLabs
- Agentes personalizáveisConfiguração de personalidades e habilidades
- Feedback em tempo realAtualizações audiovisuais e registro de logs
Usando a Ajuda
Processo de instalação
- Pré-requisitos de instalação::
- Instale o Anaconda (recomendado para o gerenciamento de dependências)
- Acesso a um prompt de terminal/comando
- armazém de clones::
git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
- Instalação de dependências::
pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
- Ambiente de configuração::
- No diretório raiz do projeto, crie o arquivo
.env
Documentação:
cp .env.example .env
- Adicione a chave e as configurações da API ao
.env
Documentação:
GEMINI_API_KEY=sua_chave_api OPENAI_API_KEY=sua_chave_de_api ELEVENLABS_API_KEY=sua_chave_de_api ANTHROPIC_API_KEY=sua_chave_api ELEVENLABS_MODEL=eleven_flash_v2_5 COMPUTER_USE_IMPLEMENTATION=tanque COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022 PROVEDOR_DO_MODELO_DE_USO_DO COMPUTADOR=anthropic NARRATIVE_LOGGER_NAME=ComputerUse.Tank NARRATIVE_MODEL=gpt-4o NARRATIVE_TEMPERATURE=0.6 NARRATIVE_MAX_TOKENS=250 LOG_LEVEL=INFO
- No diretório raiz do projeto, crie o arquivo
- iniciar um aplicativo::
python main.py
Processo de uso
- Modo de controle do PC::
- Controle de computador baseado em comando por meio de entrada de texto ou comandos de voz.
- Por exemplo, você pode dizer "abrir o navegador" ou digitar "abrir o navegador" para iniciar o navegador.
- Análise de visão computacional::
- Processa o conteúdo da tela em tempo real, reconhecendo e respondendo às alterações na tela.
- Por exemplo, o agente pode executar automaticamente uma ação predefinida quando uma imagem específica aparece na tela.
- interação por voz::
- Use os recursos de processamento de linguagem natural da ElevenLabs para interagir com os agentes por voz.
- Por exemplo, você pode perguntar ao agente sobre as condições climáticas atuais e ele responderá por voz.
- Agentes personalizados::
- Configure a personalidade e as habilidades do agente para atender a necessidades específicas.
- Por exemplo, você pode definir um agente para executar uma tarefa específica em um horário específico, como abrir um cliente de e-mail às 8 horas da manhã todos os dias.
- Feedback em tempo real::
- O agente fornecerá atualizações em tempo real e registros de operação, tanto de áudio quanto visuais, para ajudar o usuário a entender o status atual da operação.
- Por exemplo, quando o agente executa um comando, ele informa ao usuário o resultado da operação por voz.
Com essas etapas, você pode instalar e usar facilmente o TankWork para aproveitar ao máximo seus recursos avançados de controle e gerenciamento do computador.