Optexity: проект с открытым исходным кодом для обучения ИИ выполнять веб-действия с демонстрацией человека
Общее введение
Optexity - это проект с открытым исходным кодом на GitHub, разработанный командой Optexity. Его суть заключается в использовании демонстрационных данных человека для обучения искусственного интеллекта выполнению компьютерных задач, особенно операций с веб-страницами. Проект включает в себя три библиотеки кода: ComputerGYM, AgentAI и Playwright, которые позволяют пользователям записывать операции, обрабатывать данные и обучать модели, чтобы ИИ мог обучаться таким задачам, как нажатие кнопок или заполнение форм. Весь код бесплатен и может быть загружен и изменен пользователями. В будущем будет поддерживаться самообучение, документация по программному обеспечению и видеообучение на YouTube.

Список функций
- Поддерживает запись демонстраций действий человека для обучения ИИ выполнению веб-задач.
- Предоставляет среду задач, такую как MiniWoB++, включая операции с кликами и формами.
- Обработка демонстрационных данных для создания форматов для обучения.
- Gemini, vLLM и другие модели поддерживаются и могут быть точно настроены с помощью LLaMA-Factory.
- Открытый исходный код доступен для загрузки для легкой настройки.
- Интеграция с Playwright для расширения возможностей веб-автоматизации.
Использование помощи
Процесс установки
Чтобы использовать Optexity, необходимо сначала подготовить среду. Ниже приведены шаги:
- Код загрузки
Введите его в терминал:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
Это позволит загрузить три библиотеки кода.
- Конфигурационная среда
Создайте среду с помощью Conda:
conda create -n optexity python=3.10 nodejs
conda activate optexity
- Установка зависимостей
Установите ComputerGYM и AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI
Снова установите Playwright:
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
Основные функции
Записанное демо
- создать
demonstration_config.yaml
ссылкаdemonstration_config_example.yaml
Запишите цель задания (например, "нажать на кнопку"). - Запустите запись:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
Система записывает ваши действия с мышью и клавиатурой.
Обработка данных
Запишите данные постобработки:
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
Это преобразует операцию в формат, пригодный для чтения в формате AI.
Создание обучающих данных
Создайте обучающие файлы с помощью AgentAI:
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
Файл сохраняется в train_data
папку, адаптированную к LLaMA-Factory.
Модели обучения
Обучается с помощью LLaMA-Factory, см. документацию к ней. После обучения модель разворачивается в http://localhost:8000
.
Тестирование искусственного интеллекта
Протестируйте эффекты искусственного интеллекта, например, смену валюты в HubSpot:
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
Результат отображается в терминале.
Функциональное управление
Демонстрационное обучение людей
Изюминка Optexity - обучение ИИ с помощью действий человека. Вы записываете действие один раз, и ИИ учится его повторять. Записывать и обрабатывать действия очень просто, так что пользоваться им могут даже новички.
Тестирование оригинальной модели
Я бы хотела попробовать его прямо сейчас. Близнецы Модели? Бегите:
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
Ключ можно найти в https://aistudio.google.com/apikey
Получите его бесплатно.
Интеграция MiniWoB++
MiniWoB++ предоставляет такие задачи, как клики и формы. Во время выполнения ИИ пытается выполнить задачу, а на терминале отображается процент успеха.
Расширения с открытым исходным кодом
Все три кодовые базы имеют открытый исходный код. Вы можете изменить код, чтобы добавить новые функции, например, новые задачи, или подправить логику Playwright, а отправка кода на GitHub сделает его официальной частью процесса.
Краткое описание процесса эксплуатации
- Установите кодовую базу и окружение.
- Запись презентаций и обработка данных.
- Сгенерируйте обучающие данные и обучите модель.
- Протестируйте ИИ и настройте параметры.
Шаги понятны, и вы можете приступить к работе за считанные минуты.
сценарий применения
- Исследование искусственного интеллекта
Исследователи использовали его для проверки производительности ИИ при выполнении веб-задач. - веб-автоматизация
Разработчики используют ИИ для автоматизации повторяющихся действий. - образовательная практика
Студенты используют его для изучения процесса обучения искусственного интеллекта.
QA
- Нужна основа программирования?
Требуется немного знаний Python и терминала, но учебники подробны и просты в освоении. - Для чего нужна LLaMA-Factory?
Это инструмент тонкой настройки, который преобразует демонстрационные данные в тренировочный формат. - Обязательно ли тренироваться с демонстрацией?
Это не обязательно, вы можете протестировать оригинальную модель напрямую, но демо-тренировка работает лучше.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...