Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

TankWork: um corpo inteligente que opera computadores por meio de voz e texto e fornece feedback de voz em tempo real

Introdução geral

O TankWork é uma estrutura de agente de desktop de código aberto projetada para permitir que a IA perceba e controle seu computador por meio de visão computacional e interação no nível do sistema. A estrutura permite que os agentes controlem diretamente os computadores por meio de comandos de voz e de texto, processem o conteúdo da tela em tempo real e forneçam feedback audiovisual contínuo e registros de ações. O TankWork é particularmente adequado para desenvolvedores e pesquisadores para ajudá-los a criar agentes de desktop autônomos que possam realmente entender, analisar e interagir com interfaces de computador.

TankWork:通过语音和文本操作电脑,并提供实时语音反馈的智能体-1


 

Lista de funções

  • Controle direto do computadorExecutar operações por meio de comandos de voz e texto
  • Análise de visão computacionalProcessamento de conteúdo de tela em tempo real
  • interação por vozProcessamento de linguagem natural com o ElevenLabs
  • Agentes personalizáveisConfiguração de personalidades e habilidades
  • Feedback em tempo realAtualizações audiovisuais e registro de logs

 

Usando a Ajuda

Processo de instalação

  1. Pré-requisitos de instalação::
    • Instale o Anaconda (recomendado para o gerenciamento de dependências)
    • Acesso a um prompt de terminal/comando
  2. armazém de clones::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. Instalação de dependências::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. Ambiente de configuração::
    • No diretório raiz do projeto, crie o arquivo.envDocumentação:
     cp .env.example .env
    
    • Adicione a chave e as configurações da API ao.envDocumentação:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. iniciar um aplicativo::
   python main.py

Processo de uso

  1. Modo de controle do PC::
    • Controle de computador baseado em comando por meio de entrada de texto ou comandos de voz.
    • Por exemplo, você pode dizer "abrir o navegador" ou digitar "abrir o navegador" para iniciar o navegador.
  2. Análise de visão computacional::
    • Processa o conteúdo da tela em tempo real, reconhecendo e respondendo às alterações na tela.
    • Por exemplo, o agente pode executar automaticamente uma ação predefinida quando uma imagem específica aparece na tela.
  3. interação por voz::
    • Use os recursos de processamento de linguagem natural da ElevenLabs para interagir com os agentes por voz.
    • Por exemplo, você pode perguntar ao agente sobre as condições climáticas atuais e ele responderá por voz.
  4. Agentes personalizados::
    • Configure a personalidade e as habilidades do agente para atender a necessidades específicas.
    • Por exemplo, você pode definir um agente para executar uma tarefa específica em um horário específico, como abrir um cliente de e-mail às 8 horas da manhã todos os dias.
  5. Feedback em tempo real::
    • O agente fornecerá atualizações em tempo real e registros de operação, tanto de áudio quanto visuais, para ajudar o usuário a entender o status atual da operação.
    • Por exemplo, quando o agente executa um comando, ele informa ao usuário o resultado da operação por voz.

Com essas etapas, você pode instalar e usar facilmente o TankWork para aproveitar ao máximo seus recursos avançados de controle e gerenciamento do computador.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " TankWork: um corpo inteligente que opera computadores por meio de voz e texto e fornece feedback de voz em tempo real
pt_BRPortuguês do Brasil