Агент TARS: интеллектуальная система с открытым исходным кодом, использующая зрение и команды для управления компьютерами

Общее введение

Агент TARS - это мультимодальный искусственный интеллект с открытым исходным кодом от ByteDance, основные функции которого помогают пользователям выполнять сложные компьютерные задачи, визуально понимая веб-контент и комбинируя операции командной строки и файловой системы. Вместо того чтобы требовать ручного вмешательства, как традиционные инструменты, он может автоматизировать задачи браузера, редактировать файлы или выполнять команды. На сайте можно скачать настольные приложения и техническую документацию для разработчиков и пользователей, которым необходимо автоматизировать рабочий процесс. В настоящее время он находится на стадии предварительного технического просмотра и поддерживает в основном macOS. Цель Agent TARS - сделать компьютерные операции более интеллектуальными и эффективными. Проект основан на Рабочий стол UI-TARS Обертывание браузеров, бенчмаркинг Манус .

Agent TARS:使用视觉和命令操作电脑的开源智能体

 

Список функций

  • Автоматизация браузера: Автоматизация поиска, кликов, заполнения форм и т. д. с помощью визуального распознавания элементов веб-страниц.
  • Интеграция с командной строкой: Поддерживает прямой запуск системных команд для выполнения сценариев или управления фоновыми задачами.
  • работа файловой системы: Способность читать, редактировать или создавать файлы, обрабатывать данные или сохранять результаты.
  • Планирование и выполнение миссии: Разбивайте сложные задачи и автоматизируйте пошаговое выполнение для поддержки глубоких исследований или повторяющейся работы.
  • мультимодальное взаимодействиеКомбинируйте ввод изображений, текста и кода, чтобы адаптироваться к различным типам задач.
  • Расширение инструмента: Интеграция поиска, редактирования документов и протокола Model Context Protocol (MCP) для повышения функциональной гибкости.
  • Поддержка настольных приложений: Обеспечьте интерфейс для отображения процесса работы, который удобен для пользователей для просмотра и настройки в режиме реального времени.

 

Использование помощи

Использование Agent TARS состоит из двух частей: установка и работа. Ниже приведены подробные шаги, которые помогут вам быстро начать работу.

Процесс установки

  1. Скачать настольное приложение
    Откройте официальный сайт https://agent-tars.com/ и нажмите кнопку "Загрузить", чтобы перейти на страницу релиза на GitHub (https://github.com/bytedance/UI-TARS-desktop/.) releases). Выберите последнюю версию (например. AgentTARS-macOS-latest.dmg) скачать. Размер файла составляет несколько десятков мегабайт, а время загрузки - 1-5 минут в зависимости от скорости сети.
  2. Установка на macOS
    После завершения загрузки дважды щелкните .dmg файл, после чего появится окно установки. Перетащите значок Agent TARS в папку Applications. Процесс установки займет всего несколько секунд. После завершения найдите Agent TARS в папке Applications и нажмите Open.
  3. Настройка разрешений
    При первом запуске macOS вам будет предложено предоставить доступ к Accessibility. Нажмите "Системные настройки > Конфиденциальность и безопасность > Доступность", найдите Agent TARS и включите его. Это позволит ему управлять экраном и клавиатурой.
  4. Модели конфигурации и API
    После открытия приложения нажмите кнопку "Настройки" в левом нижнем углу, чтобы перейти на страницу конфигурации. Вам необходимо задать поставщика модели (например, Azure OpenAI) и ключ API. Конкретные шаги:

    • Выберите провайдера в Model Config.
    • Введите ключ API (полученный от провайдера).
    • Если вы используете Azure, вам также нужно будет заполнить apiVersion, иdeploymentName ответить пением endpoint.
      После сохранения приложение автоматически подключается к модели.
  5. Дополнительная конфигурация поиска
    Если вам нужна функция веб-поиска, перейдите в раздел "Конфигурация поиска", выберите поставщика поиска и введите ключ API. После завершения сохраните.

рабочий процесс

После установки Agent TARS имеет простой основной интерфейс с полями ввода и областями отображения действий. Ниже описано использование основных функций.

Автоматизация браузера

  • перейти: Введите задачу в поле ввода, например "Поиск последних новостей об искусственном интеллекте и сохранение заголовков". Нажмите Enter, и Agent TARS откроет встроенный браузер для автоматического поиска и извлечения заголовков.
  • продемонстрировать: В правом окне в режиме реального времени отображаются действия браузера, такие как открытие веб-страниц и прокрутка страниц.
  • в конце концов: По завершении он сохранит название в текстовом файле, путь к которому отображается в нижней части интерфейса.

Интеграция с командной строкой

  • перейти: Введите команду, например "Список файлов в текущей папке" (под macOS это ls -l Эквивалентные команды для dir). Нажмите клавишу Enter, и агент TARS вызовет терминал для выполнения.
  • продемонстрировать: Вывод команды отображается в нижней части интерфейса для удобства просмотра.
  • Расширенное использование: Вы можете вводить сложные сценарии, например "проверить системную память и запись", и он выполнит соответствующую команду и сохранит результат.

работа файловой системы

  • перейти: Введите "Создать новый файл test.txt и записать 'hello'". Нажмите Enter, и Agent TARS создаст файл и запишет его содержимое.
  • продемонстрировать: Процесс операции будет отображаться в интерфейсе, и вы можете нажать на путь, чтобы просмотреть файл после завершения.
  • Редактировать файл: Введите "open test.txt и добавьте 'world'", и файл будет изменен автоматически.

Планирование и выполнение миссии

  • перейти: Введите сложную задачу, например "Изучить особенности последней версии Python и организовать документацию". Agent TARS разбивает задачу на части: поиск данных, извлечение информации, создание документации.
  • продемонстрировать: В правом окне отображается каждый шаг операции, например открытие веб-страницы и копирование текста.
  • в конце концов: В конечном итоге создайте организованный документ и сохраните его по указанному пути.

человеко-машинное сотрудничество

  • Регулировки в режиме реального времениВо время выполнения задания можно добавлять команды в поле ввода, например "добавить еще один пример абзаца". Агент TARS будет корректировать свою работу в соответствии с новыми данными.
  • Поделитесь результатамиНажмите кнопку "Поделиться" и выберите "Локальный HTML", чтобы создать файл журнала, или настройте URL-адрес удаленного сервера для загрузки и обмена.

предостережение

  • Экологические требования: В настоящее время поддерживается только macOS, версии для Windows и Linux еще не выпущены.
  • сетевое подключение: Для связи моделей и поисковых сервисов необходима стабильная сеть.
  • регулировка компонентов во время тестирования: Если функция не работает (например, поиск не работает), проверьте правильность ключа API или присоединитесь к сообществу Discord для получения помощи (ссылка на официальном сайте).

Выполнив эти действия, вы сможете легко использовать Agent TARS для любых задач - от простых манипуляций с файлами до сложных исследовательских задач.

 

сценарий применения

  1. веб-автоматизация
    Используйте Agent TARS для автоматического просмотра веб-страниц и извлечения новостей или информации о продуктах. Например, введите "собрать последние заголовки новостей о технологиях", и он выполнит поиск и сохранит результаты для маркетинговых исследований или сбора информации.
  2. управление задачами
    Планируйте сложные проекты, например "составить план поездки", - он ищет рейсы, отели и организует их в документы. Идеально подходит для личных помощников и управления проектами.
  3. Code Assist
    Введите "Generate Python script to check file size", и Agent TARS напишет и сохранит код, облегчая разработчикам быструю генерацию инструментов.
  4. анализ данных
    Работает с данными в режиме реального времени, например "Анализ данных о запасах на веб-странице и сохранение таблицы". Он извлекает данные и создает файлы, подходящие для финансового или рыночного анализа.

 

QA

  1. Агент TARS бесплатный?
    Да, это проект с открытым исходным кодом и соответствует лицензии Apache 2.0. Код и приложение можно бесплатно загрузить и использовать с GitHub.
  2. Поддерживает ли он Windows?
    В настоящее время поддерживается только macOS, версии для Windows и Linux находятся в разработке, поэтому следите за обновлениями на GitHub.
  3. Требуется знание программирования?
    Нет необходимости. Он работает на естественном языке и доступен для обычного пользователя. Но если вы умеете программировать, то сможете лучше использовать функциональность командной строки.
  4. Как исправить неработающую функцию поиска?
    Проверьте правильность ключа API в "Конфигурации поиска" или работоспособность сетевого подключения. Вы также можете присоединиться к сообществу Discord, чтобы оставить отзыв.
© заявление об авторских правах

Похожие статьи

Vision is All You Need:使用视觉语言模型构建智能文档检索系统(Vision RAG)

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...