Optexity: проект с открытым исходным кодом для обучения ИИ выполнять веб-действия с демонстрацией человека

Последние ресурсы по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

56.4K 00

Общее введение

Optexity - это проект с открытым исходным кодом на GitHub, разработанный командой Optexity. Его суть заключается в использовании демонстрационных данных человека для обучения искусственного интеллекта выполнению компьютерных задач, особенно операций с веб-страницами. Проект включает в себя три библиотеки кода: ComputerGYM, AgentAI и Playwright, которые позволяют пользователям записывать операции, обрабатывать данные и обучать модели, чтобы ИИ мог обучаться таким задачам, как нажатие кнопок или заполнение форм. Весь код бесплатен и может быть загружен и изменен пользователями. В будущем будет поддерживаться самообучение, документация по программному обеспечению и видеообучение на YouTube.

Список функций

Поддерживает запись демонстраций действий человека для обучения ИИ выполнению веб-задач.
Предоставляет среду задач, такую как MiniWoB++, включая операции с кликами и формами.
Обработка демонстрационных данных для создания форматов для обучения.
Gemini, vLLM и другие модели поддерживаются и могут быть точно настроены с помощью LLaMA-Factory.
Открытый исходный код доступен для загрузки для легкой настройки.
Интеграция с Playwright для расширения возможностей веб-автоматизации.

Использование помощи

Процесс установки

Чтобы использовать Optexity, необходимо сначала подготовить среду. Ниже приведены шаги:

Код загрузки
Введите его в терминал:

mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Это позволит загрузить три библиотеки кода.

Конфигурационная среда
Создайте среду с помощью Conda:

conda create -n optexity python=3.10 nodejs
conda activate optexity

Установка зависимостей
Установите ComputerGYM и AgentAI:

pip install -e ComputerGYM
pip install -e AgentAI

Снова установите Playwright:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Основные функции

Записанное демо

создать demonstration_config.yamlссылка demonstration_config_example.yamlЗапишите цель задания (например, "нажать на кнопку").
Запустите запись:

./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

Система записывает ваши действия с мышью и клавиатурой.

Обработка данных

Запишите данные постобработки:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Это преобразует операцию в формат, пригодный для чтения в формате AI.

Создание обучающих данных

Создайте обучающие файлы с помощью AgentAI:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

Файл сохраняется в train_data папку, адаптированную к LLaMA-Factory.

Модели обучения

Обучается с помощью LLaMA-Factory, см. документацию к ней. После обучения модель разворачивается в http://localhost:8000.

Тестирование искусственного интеллекта

Протестируйте эффекты искусственного интеллекта, например, смену валюты в HubSpot:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

Результат отображается в терминале.

Функциональное управление

Демонстрационное обучение людей

Изюминка Optexity - обучение ИИ с помощью действий человека. Вы записываете действие один раз, и ИИ учится его повторять. Записывать и обрабатывать действия очень просто, так что пользоваться им могут даже новички.

Тестирование оригинальной модели

Я бы хотела попробовать его прямо сейчас. Близнецы Модели? Бегите:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

Ключ можно найти в https://aistudio.google.com/apikey Получите его бесплатно.

Интеграция MiniWoB++

MiniWoB++ предоставляет такие задачи, как клики и формы. Во время выполнения ИИ пытается выполнить задачу, а на терминале отображается процент успеха.

Расширения с открытым исходным кодом

Все три кодовые базы имеют открытый исходный код. Вы можете изменить код, чтобы добавить новые функции, например, новые задачи, или подправить логику Playwright, а отправка кода на GitHub сделает его официальной частью процесса.

Краткое описание процесса эксплуатации

Установите кодовую базу и окружение.
Запись презентаций и обработка данных.
Сгенерируйте обучающие данные и обучите модель.
Протестируйте ИИ и настройте параметры.

Шаги понятны, и вы можете приступить к работе за считанные минуты.

сценарий применения

Исследование искусственного интеллекта
Исследователи использовали его для проверки производительности ИИ при выполнении веб-задач.
веб-автоматизация
Разработчики используют ИИ для автоматизации повторяющихся действий.
образовательная практика
Студенты используют его для изучения процесса обучения искусственного интеллекта.

QA

Нужна основа программирования?
Требуется немного знаний Python и терминала, но учебники подробны и просты в освоении.
Для чего нужна LLaMA-Factory?
Это инструмент тонкой настройки, который преобразует демонстрационные данные в тренировочный формат.
Обязательно ли тренироваться с демонстрацией?
Это не обязательно, вы можете протестировать оригинальную модель напрямую, но демо-тренировка работает лучше.