LangGraph CUA: ИИ-интеллект на основе LangGraph для управления компьютерными операциями
Общее введение
LangGraph CUA - это проект с открытым исходным кодом, разработанный командой LangChain. Он основан на фреймворке LangGraph, позволяющем разработчикам использовать Python для создания искусственного интеллекта, способного напрямую управлять компьютерами. В основе этого инструмента лежит Агент использования компьютера (CUA), который имитирует поведение человека на компьютере, например, нажатие кнопки мыши, набор текста или просмотр веб-страниц. Он поддерживает функции памяти, совместную работу человека и компьютера и вывод данных в реальном времени, что делает его пригодным для автоматизации повторяющихся задач или разработки интеллектуальных помощников. Код проекта открыт для разработчиков и может свободно загружаться, изменяться и использоваться, что делает его особенно подходящим для энтузиастов технологий, заинтересованных в автоматизации ИИ.
Список функций
- Поддержка искусственного интеллекта для управления компьютерными операциями с помощью текста и голоса, например, открытие программ, набор текста или нажатие кнопок.
- Обеспечивает функции кратковременной и долговременной памяти для запоминания предыдущих операций и содержания диалогов.
- Встроенный режим взаимодействия человека и компьютера позволяет пользователю в любой момент вмешаться и скорректировать поведение искусственного интеллекта.
- Поддержка потокового вывода в реальном времени, процесс работы может быть отображен шаг за шагом.
- Интеграция со Scrapybara для запуска агентов ИИ на виртуальных машинах и доступа к веб-страницам.
- Позволяет разработчикам настраивать инструменты и конфигурации для гибкой и расширенной функциональности.
Использование помощи
LangGraph CUA не сложен в установке и использовании, но требует некоторых базовых настроек среды Python и API. Ниже приведены подробные шаги, которые помогут вам начать работу.
Процесс установки
- Подготовка среды
Убедитесь, что на вашем компьютере установлен Python 3.8 или выше. Это можно проверить с помощью команды:
python --version
Если нет, загрузите и установите его с сайта https://www.python.org.
- проект клонирования
Загрузите код локально, набрав в терминале следующую команду:
git clone https://github.com/langchain-ai/langgraph-cua-py.git
После завершения загрузки перейдите в папку с проектом:
cd langgraph-cua-py
- Установка зависимостей
Для проекта требуются некоторые библиотеки Python, которые устанавливаются с помощью этой команды:
pip install -r requirements.txt
Если у вас возникнут проблемы с разрешениями, вы можете добавить --user
::
pip install -r requirements.txt --user
- Настройка ключей API
LangGraph CUA нужны ключи API для OpenAI и Scrapybara. Сначала зарегистрируйте учетную запись, чтобы получить ключ, а затем установите переменные окружения в терминале:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>
взаимозаменяемость <你的OpenAI密钥>
ответить пением <你的Scrapybara密钥>
Пользователи Windows могут использовать set
замена export
.
- Проверка установки
Запустите простой тест, чтобы убедиться, что с окружением все в порядке. Перейдите в каталог проекта и запустите его:
python -m langgraph_cua
Если сообщений об ошибках нет, значит, установка прошла успешно.
Как использовать основные функции
В основе LangGraph CUA лежит создание агента искусственного интеллекта для управления компьютером. Вот как это работает.
Создание агента искусственного интеллекта
Импортируйте и настройте агента в файле Python, например:
from langgraph_cua import create_cua
cua_graph = create_cua()
В результате будет сгенерирован агент ИИ по умолчанию. Вы можете добавить параметры, если хотите использовать конкретный экземпляр виртуальной машины:
cua_graph = create_cua(auth_state_id="你的认证ID")
Управляйте компьютером
Агент может управлять компьютером с помощью команд. Например, приказать ему открыть браузер:
cua_graph.invoke({"command": "open browser"})
Или введите текст:
cua_graph.invoke({"command": "type", "text": "你好,世界"})
Эти команды выполняются непосредственно на компьютере.
Использование функции памяти
Агент запоминает предыдущие действия. Например, пусть он сначала откроет Блокнот:
cua_graph.invoke({"command": "open notepad"})
Затем введите содержимое:
cua_graph.invoke({"command": "type", "text": "这是测试"})
При следующем вызове он узнает, что Notepad открыт, и продолжит работу напрямую.
человеко-машинное сотрудничество
Если вы хотите настроить его вручную, вы можете включить режим HMI. Добавляйте параметры во время выполнения:
cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)
На этом этапе выполнения программа приостановится и будет ждать, пока вы подтвердите или измените координаты.
выход в реальном времени
Вы можете использовать потоковый вывод, если хотите видеть каждый шаг операции:
for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)
Он покажет процесс поиска шаг за шагом.
Функциональное управление
Интеграция Scrapybara
Scrapybara позволяет запускать агент на виртуальной машине, подходящей для выполнения веб-задач. Настройте его, чтобы убедиться в правильности ключа API, а затем запустите:
cua_graph.invoke({"command": "browse", "url": "https://example.com"})
Агент откроет веб-страницу и будет работать с ней на виртуальной машине.
Инструменты настройки
Вы можете добавить свои собственные инструменты. Например, определите инструмент калькулятора:
def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])
Тогда звоните:
cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})
В результате вы получите 8.
Эти шаги и код помогут вам быстро освоить LangGraph CUA как для простых задач, так и для сложных настроек.
сценарий применения
- автоматизированная офисная работа
Используйте агента искусственного интеллекта для пакетной обработки файлов, например, для открытия Excel, ввода данных и их сохранения, что позволяет исключить повторяющиеся операции. - Захват данных через Интернет
Позвольте агентам посещать веб-сайты и извлекать информацию, например, автоматически собирать заголовки новостей или данные о ценах. - Разработка интеллектуального помощника
Создайте помощника, который слушает голосовые команды, например "открыть электронную почту" или "найти документы", и выполняет их напрямую. - Образование и обучение
Продемонстрируйте, как ИИ может имитировать работу человека с компьютером во время обучения, чтобы помочь студентам понять принципы автоматизации.
QA
- Нужны ли вам основы программирования?
Требуются базовые знания Python, например, умение пользоваться командной строкой и писать простой код. Если вы не знаете, как это сделать, вы можете сначала изучить базовый синтаксис. - Что делать, если у меня нет ключа API?
Перейдите на официальные сайты OpenAI (https://openai.com) и Scrapybara, чтобы зарегистрировать аккаунт и запросить ключ. Бесплатные кредиты могут быть ограничены, поэтому мы рекомендуем ознакомиться с ценами. - Можно ли не использовать виртуальную машину?
Да, но виртуальная машина с Scrapybara более безопасна, поскольку изолирует операционную среду и не влияет на локальный компьютер. - Поддерживает ли он китайские команды?
Поддержка. Если модель ИИ понимает китайский язык, ввод команд на китайском будет не менее эффективным.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...