UI-TARS Desktop: настольное приложение Intelligentsia для управления компьютерами с помощью естественного языка
Общее введение
UI-TARS Desktop - это агентское приложение с графическим интерфейсом на основе UI-TARS (Visual Language Model), разработанное компанией ByteDance. Приложение позволяет пользователям управлять компьютерами с помощью естественного языка для более интуитивного и эффективного взаимодействия человека и компьютера. UI-TARS Desktop поддерживает кроссплатформенную работу, совместим с системами Windows и macOS, обеспечивает обратную связь и отображение статуса в режиме реального времени. Пользователи могут выполнять такие операции, как создание скриншотов, визуальное распознавание, точное управление мышью и клавиатурой с помощью простых голосовых команд, что значительно повышает удобство и интеллектуальность работы с компьютером.

Список функций
- Управление на естественном языке: управление компьютерными операциями с помощью голосовых команд
- Снимок экрана и визуальное распознавание: поддержка функций снимка экрана и распознавания изображений
- Точное управление мышью и клавиатурой: обеспечивает высокоточное управление мышью и клавиатурой
- Кроссплатформенная поддержка: совместимость с Windows и macOS.
- Обратная связь и отображение состояния в реальном времени: Обеспечивает обратную связь и обновление состояния операций в реальном времени
Использование помощи
Процесс установки
MacOS
- Загрузите последнюю версию приложения UI-TARS Desktop.
- Перетащите приложение UI-TARS в папку Applications (Приложения).
- Включите разрешения UI-TARS в системных настройках macOS:
- Системные настройки -> Конфиденциальность и безопасность -> Доступность
- Системные настройки -> Конфиденциальность и безопасность -> Запись экрана
- Откройте приложение UI-TARS, которое можно использовать в терминале, если приложение повреждено
sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
Фикс.
Windows (компьютер)
- Загрузите последнюю версию приложения UI-TARS Desktop.
- Запустите приложение и следуйте подсказкам, чтобы завершить установку.
Руководство по использованию
- После открытия приложения UI-TARS пользователь видит основной интерфейс.
- В основном интерфейсе пользователи могут выполнять различные операции с помощью голосовых команд, например, получать информацию о погоде и отправлять твиты.
- Приложение поддерживает визуальные языковые модели (VLM), развернутые HuggingFace (в облаке) и Ollama (локально), и для быстрого развертывания рекомендуется использовать конечную точку вывода HuggingFace.
- Для развертывания модели пользователи могут обратиться к руководству по развертыванию модели с графическим интерфейсом.
Основные функции
управление на естественном языке
- В главном интерфейсе нажмите на значок микрофона, чтобы начать голосовой ввод.
- Произносите команды, например, "Откройте браузер и найдите погоду".
- Приложение выполнит соответствующую операцию в соответствии с инструкцией и отобразит результат на интерфейсе.
Скриншоты и визуальное распознавание
- В главном интерфейсе выберите функцию "Снимок экрана".
- С помощью мыши выберите область, с которой нужно сделать снимок экрана.
- Приложение автоматически распознает содержание скриншота и отобразит результат.
Точное управление мышью и клавиатурой
- В главном интерфейсе выберите функцию "Управление мышью" или "Управление клавиатурой".
- Используйте голосовые команды или вводите их вручную для управления движением мыши и вводом с клавиатуры.
- Приложение будет выполнять соответствующие действия в соответствии с инструкциями и обеспечивать обратную связь в режиме реального времени.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...