LangGraph CUA: ИИ-интеллект на основе LangGraph для управления компьютерными операциями

Общее введение

LangGraph CUA - это проект с открытым исходным кодом, разработанный командой LangChain. Он основан на фреймворке LangGraph, позволяющем разработчикам использовать Python для создания искусственного интеллекта, способного напрямую управлять компьютерами. В основе этого инструмента лежит Агент использования компьютера (CUA), который имитирует поведение человека на компьютере, например, нажатие кнопки мыши, набор текста или просмотр веб-страниц. Он поддерживает функции памяти, совместную работу человека и компьютера и вывод данных в реальном времени, что делает его пригодным для автоматизации повторяющихся задач или разработки интеллектуальных помощников. Код проекта открыт для разработчиков и может свободно загружаться, изменяться и использоваться, что делает его особенно подходящим для энтузиастов технологий, заинтересованных в автоматизации ИИ.

 

Список функций

  • Поддержка искусственного интеллекта для управления компьютерными операциями с помощью текста и голоса, например, открытие программ, набор текста или нажатие кнопок.
  • Обеспечивает функции кратковременной и долговременной памяти для запоминания предыдущих операций и содержания диалогов.
  • Встроенный режим взаимодействия человека и компьютера позволяет пользователю в любой момент вмешаться и скорректировать поведение искусственного интеллекта.
  • Поддержка потокового вывода в реальном времени, процесс работы может быть отображен шаг за шагом.
  • Интеграция со Scrapybara для запуска агентов ИИ на виртуальных машинах и доступа к веб-страницам.
  • Позволяет разработчикам настраивать инструменты и конфигурации для гибкой и расширенной функциональности.

 

Использование помощи

LangGraph CUA не сложен в установке и использовании, но требует некоторых базовых настроек среды Python и API. Ниже приведены подробные шаги, которые помогут вам начать работу.

Процесс установки

  1. Подготовка среды
    Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно проверить с помощью команды:
python --version

Если нет, загрузите и установите его с сайта https://www.python.org.

  1. проект клонирования
    Загрузите код локально, набрав в терминале следующую команду:
git clone https://github.com/langchain-ai/langgraph-cua-py.git

После завершения загрузки перейдите в папку с проектом:

cd langgraph-cua-py
  1. Установка зависимостей
    Для проекта требуются некоторые библиотеки Python, которые устанавливаются с помощью этой команды:
pip install -r requirements.txt

Если у вас возникнут проблемы с разрешениями, вы можете добавить --user::

pip install -r requirements.txt --user
  1. Настройка ключей API
    LangGraph CUA нужны ключи API для OpenAI и Scrapybara. Сначала зарегистрируйте учетную запись, чтобы получить ключ, а затем установите переменные окружения в терминале:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>

взаимозаменяемость <你的OpenAI密钥> ответить пением <你的Scrapybara密钥> Пользователи Windows могут использовать set замена export.

  1. Проверка установки
    Запустите простой тест, чтобы убедиться, что с окружением все в порядке. Перейдите в каталог проекта и запустите его:
python -m langgraph_cua

Если сообщений об ошибках нет, значит, установка прошла успешно.

Как использовать основные функции

В основе LangGraph CUA лежит создание агента искусственного интеллекта для управления компьютером. Вот как это работает.

Создание агента искусственного интеллекта

Импортируйте и настройте агента в файле Python, например:

from langgraph_cua import create_cua
cua_graph = create_cua()

В результате будет сгенерирован агент ИИ по умолчанию. Вы можете добавить параметры, если хотите использовать конкретный экземпляр виртуальной машины:

cua_graph = create_cua(auth_state_id="你的认证ID")

Управляйте компьютером

Агент может управлять компьютером с помощью команд. Например, приказать ему открыть браузер:

cua_graph.invoke({"command": "open browser"})

Или введите текст:

cua_graph.invoke({"command": "type", "text": "你好,世界"})

Эти команды выполняются непосредственно на компьютере.

Использование функции памяти

Агент запоминает предыдущие действия. Например, пусть он сначала откроет Блокнот:

cua_graph.invoke({"command": "open notepad"})

Затем введите содержимое:

cua_graph.invoke({"command": "type", "text": "这是测试"})

При следующем вызове он узнает, что Notepad открыт, и продолжит работу напрямую.

человеко-машинное сотрудничество

Если вы хотите настроить его вручную, вы можете включить режим HMI. Добавляйте параметры во время выполнения:

cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)

На этом этапе выполнения программа приостановится и будет ждать, пока вы подтвердите или измените координаты.

выход в реальном времени

Вы можете использовать потоковый вывод, если хотите видеть каждый шаг операции:

for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)

Он покажет процесс поиска шаг за шагом.

Функциональное управление

Интеграция Scrapybara

Scrapybara позволяет запускать агент на виртуальной машине, подходящей для выполнения веб-задач. Настройте его, чтобы убедиться в правильности ключа API, а затем запустите:

cua_graph.invoke({"command": "browse", "url": "https://example.com"})

Агент откроет веб-страницу и будет работать с ней на виртуальной машине.

Инструменты настройки

Вы можете добавить свои собственные инструменты. Например, определите инструмент калькулятора:

def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])

Тогда звоните:

cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})

В результате вы получите 8.

Эти шаги и код помогут вам быстро освоить LangGraph CUA как для простых задач, так и для сложных настроек.

 

сценарий применения

  1. автоматизированная офисная работа
    Используйте агента искусственного интеллекта для пакетной обработки файлов, например, для открытия Excel, ввода данных и их сохранения, что позволяет исключить повторяющиеся операции.
  2. Захват данных через Интернет
    Позвольте агентам посещать веб-сайты и извлекать информацию, например, автоматически собирать заголовки новостей или данные о ценах.
  3. Разработка интеллектуального помощника
    Создайте помощника, который слушает голосовые команды, например "открыть электронную почту" или "найти документы", и выполняет их напрямую.
  4. Образование и обучение
    Продемонстрируйте, как ИИ может имитировать работу человека с компьютером во время обучения, чтобы помочь студентам понять принципы автоматизации.

 

QA

  1. Нужны ли вам основы программирования?
    Требуются базовые знания Python, например, умение пользоваться командной строкой и писать простой код. Если вы не знаете, как это сделать, вы можете сначала изучить базовый синтаксис.
  2. Что делать, если у меня нет ключа API?
    Перейдите на официальные сайты OpenAI (https://openai.com) и Scrapybara, чтобы зарегистрировать аккаунт и запросить ключ. Бесплатные кредиты могут быть ограничены, поэтому мы рекомендуем ознакомиться с ценами.
  3. Можно ли не использовать виртуальную машину?
    Да, но виртуальная машина с Scrapybara более безопасна, поскольку изолирует операционную среду и не влияет на локальный компьютер.
  4. Поддерживает ли он китайские команды?
    Поддержка. Если модель ИИ понимает китайский язык, ввод команд на китайском будет не менее эффективным.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...