TankWork: интеллектуальное тело, которое управляет компьютерами с помощью голоса и текста и обеспечивает голосовую обратную связь в режиме реального времени

Общее введение

TankWork - это фреймворк для настольных агентов с открытым исходным кодом, разработанный для того, чтобы ИИ мог воспринимать и контролировать ваш компьютер с помощью компьютерного зрения и взаимодействия на системном уровне. Фреймворк позволяет агентам напрямую управлять компьютером с помощью голосовых и текстовых команд, обрабатывать содержимое экрана в реальном времени, а также предоставлять непрерывную аудиовизуальную обратную связь и журналы действий. TankWork особенно хорошо подходит для разработчиков и исследователей, чтобы помочь им создать автономных настольных агентов, которые могут реально понимать, анализировать и взаимодействовать с компьютерными интерфейсами.

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

 

Список функций

  • Прямое компьютерное управлениеВыполнение операций с помощью голосовых и текстовых команд
  • Анализ компьютерного зрения: Обработка содержимого экрана в режиме реального времени
  • голосовое взаимодействиеОбработка естественного языка с ElevenLabs
  • Настраиваемые агенты: Настройка личностных качеств и навыков
  • Обратная связь в режиме реального времени: Обновление и регистрация аудиовизуальных материалов

 

Использование помощи

Процесс установки

  1. Необходимые условия установки::
    • Установите Anaconda (рекомендуется для управления зависимостями).
    • Доступ к терминалу/командной строке
  2. склад клонов::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. Установка зависимостей::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. Конфигурационная среда::
    • В корневом каталоге проекта создайте файл.envДокументация:
     cp .env.example .env
    
    • Добавьте ключ и настройки API в.envДокументация:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. запустить приложение::
   python main.py

Процесс использования

  1. Режим управления ПК::
    • Управление компьютером с помощью текстовых или голосовых команд.
    • Например, вы можете сказать "открыть браузер" или набрать "открыть браузер", чтобы запустить браузер.
  2. Анализ компьютерного зрения::
    • Обрабатывает содержимое экрана в режиме реального времени, распознавая и реагируя на изменения на экране.
    • Например, агент может автоматически выполнять заданное действие при появлении на экране определенного изображения.
  3. голосовое взаимодействие::
    • Используйте возможности обработки естественного языка ElevenLabs для голосового взаимодействия с агентами.
    • Например, вы можете спросить агента о текущих погодных условиях, и он ответит вам голосом.
  4. Индивидуальные агенты::
    • Настройте личность и навыки агента в соответствии с конкретными потребностями.
    • Например, вы можете настроить агента на выполнение определенной задачи в определенное время, например, открывать почтовый клиент в 8 утра каждый день.
  5. Обратная связь в режиме реального времени::
    • Агент будет предоставлять обновления в режиме реального времени и журналы операций, как звуковые, так и визуальные, чтобы помочь пользователю понять текущий статус работы.
    • Например, когда агент выполняет команду, он сообщает пользователю о результате операции голосом.

Выполнив эти действия, вы сможете легко установить и использовать TankWork, чтобы в полной мере воспользоваться его мощными возможностями для контроля и управления компьютером.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...