TankWork: un cuerpo inteligente que maneja ordenadores mediante voz y texto y proporciona información de voz en tiempo real.

Introducción general

TankWork es un marco de agentes de escritorio de código abierto diseñado para permitir que la IA perciba y controle el ordenador mediante la visión por ordenador y la interacción a nivel de sistema. El marco permite a los agentes controlar directamente los ordenadores mediante comandos de voz y texto, procesar el contenido de la pantalla en tiempo real y proporcionar información audiovisual continua y registros de acciones.TankWork está especialmente indicado para que desarrolladores e investigadores les ayuden a crear agentes de escritorio autónomos capaces de comprender, analizar e interactuar realmente con interfaces informáticas.

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

 

Lista de funciones

  • Control directo por ordenadorEjecutar operaciones mediante comandos de voz y texto
  • Análisis de visión por ordenador: Tratamiento del contenido de la pantalla en tiempo real
  • interacción por vozProcesamiento del lenguaje natural con ElevenLabs
  • Agentes personalizablesConfigurar personalidades y competencias
  • Información en tiempo realActualizaciones audiovisuales y registro

 

Utilizar la ayuda

Proceso de instalación

  1. Requisitos de instalación::
    • Instale Anaconda (recomendado para la gestión de dependencias)
    • Acceder a un terminal/comando
  2. almacén de clones::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. Instalación de dependencias::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. Entorno de configuración::
    • En el directorio raíz del proyecto, cree el archivo.envDocumentación:
     cp .env.example .env
    
    • Añada la clave de API y la configuración a.envDocumentación:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. lanzar una aplicación::
   python main.py

Proceso de utilización

  1. Modo de control por PC::
    • Control del ordenador mediante comandos de texto o de voz.
    • Por ejemplo, puedes decir "abrir navegador" o teclear "abrir navegador" para iniciar el navegador.
  2. Análisis de visión por ordenador::
    • Procesa el contenido de la pantalla en tiempo real, reconociendo y respondiendo a los cambios que se producen en ella.
    • Por ejemplo, el agente puede realizar automáticamente una acción preestablecida cuando aparece una imagen específica en la pantalla.
  3. interacción por voz::
    • Utilice las capacidades de procesamiento del lenguaje natural de ElevenLabs para interactuar con los agentes a través de la voz.
    • Por ejemplo, puede preguntar al agente por las condiciones meteorológicas actuales y el agente le responderá por voz.
  4. Agentes personalizados::
    • Configure la personalidad y las habilidades del agente para satisfacer necesidades específicas.
    • Por ejemplo, puede configurar un agente para que realice una tarea concreta a una hora determinada, como abrir un cliente de correo electrónico a las 8 de la mañana todos los días.
  5. Información en tiempo real::
    • El agente proporcionará actualizaciones en tiempo real y registros de funcionamiento, tanto sonoros como visuales, para ayudar al usuario a comprender el estado actual de funcionamiento.
    • Por ejemplo, cuando el agente ejecuta un comando, informa al usuario del resultado de la operación por voz.

Con estos pasos, puedes instalar y utilizar fácilmente TankWork para aprovechar al máximo sus potentes funciones para controlar y gestionar tu ordenador.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...