TankWork: интеллектуальное тело, которое управляет компьютерами с помощью голоса и текста и обеспечивает голосовую обратную связь в режиме реального времени
Общее введение
TankWork - это фреймворк для настольных агентов с открытым исходным кодом, разработанный для того, чтобы ИИ мог воспринимать и контролировать ваш компьютер с помощью компьютерного зрения и взаимодействия на системном уровне. Фреймворк позволяет агентам напрямую управлять компьютером с помощью голосовых и текстовых команд, обрабатывать содержимое экрана в реальном времени, а также предоставлять непрерывную аудиовизуальную обратную связь и журналы действий. TankWork особенно хорошо подходит для разработчиков и исследователей, чтобы помочь им создать автономных настольных агентов, которые могут реально понимать, анализировать и взаимодействовать с компьютерными интерфейсами.

Список функций
- Прямое компьютерное управлениеВыполнение операций с помощью голосовых и текстовых команд
- Анализ компьютерного зрения: Обработка содержимого экрана в режиме реального времени
- голосовое взаимодействиеОбработка естественного языка с ElevenLabs
- Настраиваемые агенты: Настройка личностных качеств и навыков
- Обратная связь в режиме реального времени: Обновление и регистрация аудиовизуальных материалов
Использование помощи
Процесс установки
- Необходимые условия установки::
- Установите Anaconda (рекомендуется для управления зависимостями).
- Доступ к терминалу/командной строке
- склад клонов::
git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
- Установка зависимостей::
pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
- Конфигурационная среда::
- В корневом каталоге проекта создайте файл
.env
Документация:
cp .env.example .env
- Добавьте ключ и настройки API в
.env
Документация:
GEMINI_API_KEY=your_api_key OPENAI_API_KEY=your_api_key ELEVENLABS_API_KEY=your_api_key ANTHROPIC_API_KEY=your_api_key ELEVENLABS_MODEL=eleven_flash_v2_5 COMPUTER_USE_IMPLEMENTATION=tank COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022 COMPUTER_USE_MODEL_PROVIDER=anthropic NARRATIVE_LOGGER_NAME=ComputerUse.Tank NARRATIVE_MODEL=gpt-4o NARRATIVE_TEMPERATURE=0.6 NARRATIVE_MAX_TOKENS=250 LOG_LEVEL=INFO
- В корневом каталоге проекта создайте файл
- запустить приложение::
python main.py
Процесс использования
- Режим управления ПК::
- Управление компьютером с помощью текстовых или голосовых команд.
- Например, вы можете сказать "открыть браузер" или набрать "открыть браузер", чтобы запустить браузер.
- Анализ компьютерного зрения::
- Обрабатывает содержимое экрана в режиме реального времени, распознавая и реагируя на изменения на экране.
- Например, агент может автоматически выполнять заданное действие при появлении на экране определенного изображения.
- голосовое взаимодействие::
- Используйте возможности обработки естественного языка ElevenLabs для голосового взаимодействия с агентами.
- Например, вы можете спросить агента о текущих погодных условиях, и он ответит вам голосом.
- Индивидуальные агенты::
- Настройте личность и навыки агента в соответствии с конкретными потребностями.
- Например, вы можете настроить агента на выполнение определенной задачи в определенное время, например, открывать почтовый клиент в 8 утра каждый день.
- Обратная связь в режиме реального времени::
- Агент будет предоставлять обновления в режиме реального времени и журналы операций, как звуковые, так и визуальные, чтобы помочь пользователю понять текущий статус работы.
- Например, когда агент выполняет команду, он сообщает пользователю о результате операции голосом.
Выполнив эти действия, вы сможете легко установить и использовать TankWork, чтобы в полной мере воспользоваться его мощными возможностями для контроля и управления компьютером.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...