Агент TARS: интеллектуальная система с открытым исходным кодом, использующая зрение и команды для управления компьютерами
Общее введение
Агент TARS - это мультимодальный искусственный интеллект с открытым исходным кодом от ByteDance, основные функции которого помогают пользователям выполнять сложные компьютерные задачи, визуально понимая веб-контент и комбинируя операции командной строки и файловой системы. Вместо того чтобы требовать ручного вмешательства, как традиционные инструменты, он может автоматизировать задачи браузера, редактировать файлы или выполнять команды. На сайте можно скачать настольные приложения и техническую документацию для разработчиков и пользователей, которым необходимо автоматизировать рабочий процесс. В настоящее время он находится на стадии предварительного технического просмотра и поддерживает в основном macOS. Цель Agent TARS - сделать компьютерные операции более интеллектуальными и эффективными. Проект основан на Рабочий стол UI-TARS Обертывание браузеров, бенчмаркинг Манус .

Список функций
- Автоматизация браузера: Автоматизация поиска, кликов, заполнения форм и т. д. с помощью визуального распознавания элементов веб-страниц.
- Интеграция с командной строкой: Поддерживает прямой запуск системных команд для выполнения сценариев или управления фоновыми задачами.
- работа файловой системы: Способность читать, редактировать или создавать файлы, обрабатывать данные или сохранять результаты.
- Планирование и выполнение миссии: Разбивайте сложные задачи и автоматизируйте пошаговое выполнение для поддержки глубоких исследований или повторяющейся работы.
- мультимодальное взаимодействиеКомбинируйте ввод изображений, текста и кода, чтобы адаптироваться к различным типам задач.
- Расширение инструмента: Интеграция поиска, редактирования документов и протокола Model Context Protocol (MCP) для повышения функциональной гибкости.
- Поддержка настольных приложений: Обеспечьте интерфейс для отображения процесса работы, который удобен для пользователей для просмотра и настройки в режиме реального времени.
Использование помощи
Использование Agent TARS состоит из двух частей: установка и работа. Ниже приведены подробные шаги, которые помогут вам быстро начать работу.
Процесс установки
- Скачать настольное приложение
Откройте официальный сайт https://agent-tars.com/ и нажмите кнопку "Загрузить", чтобы перейти на страницу релиза на GitHub (https://github.com/bytedance/UI-TARS-desktop/.) releases). Выберите последнюю версию (например.AgentTARS-macOS-latest.dmg
) скачать. Размер файла составляет несколько десятков мегабайт, а время загрузки - 1-5 минут в зависимости от скорости сети. - Установка на macOS
После завершения загрузки дважды щелкните.dmg
файл, после чего появится окно установки. Перетащите значок Agent TARS в папку Applications. Процесс установки займет всего несколько секунд. После завершения найдите Agent TARS в папке Applications и нажмите Open. - Настройка разрешений
При первом запуске macOS вам будет предложено предоставить доступ к Accessibility. Нажмите "Системные настройки > Конфиденциальность и безопасность > Доступность", найдите Agent TARS и включите его. Это позволит ему управлять экраном и клавиатурой. - Модели конфигурации и API
После открытия приложения нажмите кнопку "Настройки" в левом нижнем углу, чтобы перейти на страницу конфигурации. Вам необходимо задать поставщика модели (например, Azure OpenAI) и ключ API. Конкретные шаги:- Выберите провайдера в Model Config.
- Введите ключ API (полученный от провайдера).
- Если вы используете Azure, вам также нужно будет заполнить
apiVersion
, иdeploymentName
ответить пениемendpoint
.
После сохранения приложение автоматически подключается к модели.
- Дополнительная конфигурация поиска
Если вам нужна функция веб-поиска, перейдите в раздел "Конфигурация поиска", выберите поставщика поиска и введите ключ API. После завершения сохраните.
рабочий процесс
После установки Agent TARS имеет простой основной интерфейс с полями ввода и областями отображения действий. Ниже описано использование основных функций.
Автоматизация браузера
- перейти: Введите задачу в поле ввода, например "Поиск последних новостей об искусственном интеллекте и сохранение заголовков". Нажмите Enter, и Agent TARS откроет встроенный браузер для автоматического поиска и извлечения заголовков.
- продемонстрировать: В правом окне в режиме реального времени отображаются действия браузера, такие как открытие веб-страниц и прокрутка страниц.
- в конце концов: По завершении он сохранит название в текстовом файле, путь к которому отображается в нижней части интерфейса.
Интеграция с командной строкой
- перейти: Введите команду, например "Список файлов в текущей папке" (под macOS это
ls -l
Эквивалентные команды дляdir
). Нажмите клавишу Enter, и агент TARS вызовет терминал для выполнения. - продемонстрировать: Вывод команды отображается в нижней части интерфейса для удобства просмотра.
- Расширенное использование: Вы можете вводить сложные сценарии, например "проверить системную память и запись", и он выполнит соответствующую команду и сохранит результат.
работа файловой системы
- перейти: Введите "Создать новый файл test.txt и записать 'hello'". Нажмите Enter, и Agent TARS создаст файл и запишет его содержимое.
- продемонстрировать: Процесс операции будет отображаться в интерфейсе, и вы можете нажать на путь, чтобы просмотреть файл после завершения.
- Редактировать файл: Введите "open test.txt и добавьте 'world'", и файл будет изменен автоматически.
Планирование и выполнение миссии
- перейти: Введите сложную задачу, например "Изучить особенности последней версии Python и организовать документацию". Agent TARS разбивает задачу на части: поиск данных, извлечение информации, создание документации.
- продемонстрировать: В правом окне отображается каждый шаг операции, например открытие веб-страницы и копирование текста.
- в конце концов: В конечном итоге создайте организованный документ и сохраните его по указанному пути.
человеко-машинное сотрудничество
- Регулировки в режиме реального времениВо время выполнения задания можно добавлять команды в поле ввода, например "добавить еще один пример абзаца". Агент TARS будет корректировать свою работу в соответствии с новыми данными.
- Поделитесь результатамиНажмите кнопку "Поделиться" и выберите "Локальный HTML", чтобы создать файл журнала, или настройте URL-адрес удаленного сервера для загрузки и обмена.
предостережение
- Экологические требования: В настоящее время поддерживается только macOS, версии для Windows и Linux еще не выпущены.
- сетевое подключение: Для связи моделей и поисковых сервисов необходима стабильная сеть.
- регулировка компонентов во время тестирования: Если функция не работает (например, поиск не работает), проверьте правильность ключа API или присоединитесь к сообществу Discord для получения помощи (ссылка на официальном сайте).
Выполнив эти действия, вы сможете легко использовать Agent TARS для любых задач - от простых манипуляций с файлами до сложных исследовательских задач.
сценарий применения
- веб-автоматизация
Используйте Agent TARS для автоматического просмотра веб-страниц и извлечения новостей или информации о продуктах. Например, введите "собрать последние заголовки новостей о технологиях", и он выполнит поиск и сохранит результаты для маркетинговых исследований или сбора информации. - управление задачами
Планируйте сложные проекты, например "составить план поездки", - он ищет рейсы, отели и организует их в документы. Идеально подходит для личных помощников и управления проектами. - Code Assist
Введите "Generate Python script to check file size", и Agent TARS напишет и сохранит код, облегчая разработчикам быструю генерацию инструментов. - анализ данных
Работает с данными в режиме реального времени, например "Анализ данных о запасах на веб-странице и сохранение таблицы". Он извлекает данные и создает файлы, подходящие для финансового или рыночного анализа.
QA
- Агент TARS бесплатный?
Да, это проект с открытым исходным кодом и соответствует лицензии Apache 2.0. Код и приложение можно бесплатно загрузить и использовать с GitHub. - Поддерживает ли он Windows?
В настоящее время поддерживается только macOS, версии для Windows и Linux находятся в разработке, поэтому следите за обновлениями на GitHub. - Требуется знание программирования?
Нет необходимости. Он работает на естественном языке и доступен для обычного пользователя. Но если вы умеете программировать, то сможете лучше использовать функциональность командной строки. - Как исправить неработающую функцию поиска?
Проверьте правильность ключа API в "Конфигурации поиска" или работоспособность сетевого подключения. Вы также можете присоединиться к сообществу Discord, чтобы оставить отзыв.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...