Aprendizagem pessoal com IA
e orientação prática

TankWork: um corpo inteligente que opera computadores por meio de voz e texto e fornece feedback de voz em tempo real

Introdução geral

O TankWork é uma estrutura de agente de desktop de código aberto projetada para permitir que a IA perceba e controle seu computador por meio de visão computacional e interação no nível do sistema. A estrutura permite que os agentes controlem diretamente os computadores por meio de comandos de voz e de texto, processem o conteúdo da tela em tempo real e forneçam feedback audiovisual contínuo e registros de ações. O TankWork é particularmente adequado para desenvolvedores e pesquisadores para ajudá-los a criar agentes de desktop autônomos que possam realmente entender, analisar e interagir com interfaces de computador.

TankWork: um corpo inteligente que opera um computador por meio de voz e texto e fornece feedback de voz em tempo real-1


 

Lista de funções

  • Controle direto do computadorExecutar operações por meio de comandos de voz e texto
  • Análise de visão computacionalProcessamento de conteúdo de tela em tempo real
  • interação por vozProcessamento de linguagem natural com o ElevenLabs
  • Agentes personalizáveisConfiguração de personalidades e habilidades
  • Feedback em tempo realAtualizações audiovisuais e registro de logs

 

Usando a Ajuda

Processo de instalação

  1. Pré-requisitos de instalação::
    • Instale o Anaconda (recomendado para o gerenciamento de dependências)
    • Acesso a um prompt de terminal/comando
  2. armazém de clones::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. Instalação de dependências::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. Ambiente de configuração::
    • No diretório raiz do projeto, crie o arquivo.envDocumentação:
     cp .env.example .env
    
    • Adicione a chave e as configurações da API ao.envDocumentação:
     GEMINI_API_KEY=sua_chave_api
    OPENAI_API_KEY=sua_chave_de_api
    ELEVENLABS_API_KEY=sua_chave_de_api
    ANTHROPIC_API_KEY=sua_chave_api
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tanque
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    PROVEDOR_DO_MODELO_DE_USO_DO COMPUTADOR=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. iniciar um aplicativo::
   python main.py

Processo de uso

  1. Modo de controle do PC::
    • Controle de computador baseado em comando por meio de entrada de texto ou comandos de voz.
    • Por exemplo, você pode dizer "abrir o navegador" ou digitar "abrir o navegador" para iniciar o navegador.
  2. Análise de visão computacional::
    • Processa o conteúdo da tela em tempo real, reconhecendo e respondendo às alterações na tela.
    • Por exemplo, o agente pode executar automaticamente uma ação predefinida quando uma imagem específica aparece na tela.
  3. interação por voz::
    • Use os recursos de processamento de linguagem natural da ElevenLabs para interagir com os agentes por voz.
    • Por exemplo, você pode perguntar ao agente sobre as condições climáticas atuais e ele responderá por voz.
  4. Agentes personalizados::
    • Configure a personalidade e as habilidades do agente para atender a necessidades específicas.
    • Por exemplo, você pode definir um agente para executar uma tarefa específica em um horário específico, como abrir um cliente de e-mail às 8 horas da manhã todos os dias.
  5. Feedback em tempo real::
    • O agente fornecerá atualizações em tempo real e registros de operação, tanto de áudio quanto visuais, para ajudar o usuário a entender o status atual da operação.
    • Por exemplo, quando o agente executa um comando, ele informa ao usuário o resultado da operação por voz.

Com essas etapas, você pode instalar e usar facilmente o TankWork para aproveitar ao máximo seus recursos avançados de controle e gerenciamento do computador.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " TankWork: um corpo inteligente que opera computadores por meio de voz e texto e fornece feedback de voz em tempo real

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil