Optexity: проект с открытым исходным кодом для обучения ИИ выполнять веб-действия с демонстрацией человека

Общее введение

Optexity - это проект с открытым исходным кодом на GitHub, разработанный командой Optexity. Его суть заключается в использовании демонстрационных данных человека для обучения искусственного интеллекта выполнению компьютерных задач, особенно операций с веб-страницами. Проект включает в себя три библиотеки кода: ComputerGYM, AgentAI и Playwright, которые позволяют пользователям записывать операции, обрабатывать данные и обучать модели, чтобы ИИ мог обучаться таким задачам, как нажатие кнопок или заполнение форм. Весь код бесплатен и может быть загружен и изменен пользователями. В будущем будет поддерживаться самообучение, документация по программному обеспечению и видеообучение на YouTube.

Optexity:用人类演示训练AI执行网页操作的开源项目

 

Список функций

  • Поддерживает запись демонстраций действий человека для обучения ИИ выполнению веб-задач.
  • Предоставляет среду задач, такую как MiniWoB++, включая операции с кликами и формами.
  • Обработка демонстрационных данных для создания форматов для обучения.
  • Gemini, vLLM и другие модели поддерживаются и могут быть точно настроены с помощью LLaMA-Factory.
  • Открытый исходный код доступен для загрузки для легкой настройки.
  • Интеграция с Playwright для расширения возможностей веб-автоматизации.

 

Использование помощи

Процесс установки

Чтобы использовать Optexity, необходимо сначала подготовить среду. Ниже приведены шаги:

  1. Код загрузки
    Введите его в терминал:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Это позволит загрузить три библиотеки кода.

  1. Конфигурационная среда
    Создайте среду с помощью Conda:
conda create -n optexity python=3.10 nodejs
conda activate optexity
  1. Установка зависимостей
    Установите ComputerGYM и AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI

Снова установите Playwright:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Основные функции

Записанное демо

  1. создать demonstration_config.yamlссылка demonstration_config_example.yamlЗапишите цель задания (например, "нажать на кнопку").
  2. Запустите запись:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

Система записывает ваши действия с мышью и клавиатурой.

Обработка данных

Запишите данные постобработки:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Это преобразует операцию в формат, пригодный для чтения в формате AI.

Создание обучающих данных

Создайте обучающие файлы с помощью AgentAI:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

Файл сохраняется в train_data папку, адаптированную к LLaMA-Factory.

Модели обучения

Обучается с помощью LLaMA-Factory, см. документацию к ней. После обучения модель разворачивается в http://localhost:8000.

Тестирование искусственного интеллекта

Протестируйте эффекты искусственного интеллекта, например, смену валюты в HubSpot:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

Результат отображается в терминале.

Функциональное управление

Демонстрационное обучение людей

Изюминка Optexity - обучение ИИ с помощью действий человека. Вы записываете действие один раз, и ИИ учится его повторять. Записывать и обрабатывать действия очень просто, так что пользоваться им могут даже новички.

Тестирование оригинальной модели

Я бы хотела попробовать его прямо сейчас. Близнецы Модели? Бегите:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

Ключ можно найти в https://aistudio.google.com/apikey Получите его бесплатно.

Интеграция MiniWoB++

MiniWoB++ предоставляет такие задачи, как клики и формы. Во время выполнения ИИ пытается выполнить задачу, а на терминале отображается процент успеха.

Расширения с открытым исходным кодом

Все три кодовые базы имеют открытый исходный код. Вы можете изменить код, чтобы добавить новые функции, например, новые задачи, или подправить логику Playwright, а отправка кода на GitHub сделает его официальной частью процесса.

Краткое описание процесса эксплуатации

  1. Установите кодовую базу и окружение.
  2. Запись презентаций и обработка данных.
  3. Сгенерируйте обучающие данные и обучите модель.
  4. Протестируйте ИИ и настройте параметры.

Шаги понятны, и вы можете приступить к работе за считанные минуты.

 

сценарий применения

  1. Исследование искусственного интеллекта
    Исследователи использовали его для проверки производительности ИИ при выполнении веб-задач.
  2. веб-автоматизация
    Разработчики используют ИИ для автоматизации повторяющихся действий.
  3. образовательная практика
    Студенты используют его для изучения процесса обучения искусственного интеллекта.

 

QA

  1. Нужна основа программирования?
    Требуется немного знаний Python и терминала, но учебники подробны и просты в освоении.
  2. Для чего нужна LLaMA-Factory?
    Это инструмент тонкой настройки, который преобразует демонстрационные данные в тренировочный формат.
  3. Обязательно ли тренироваться с демонстрацией?
    Это не обязательно, вы можете протестировать оригинальную модель напрямую, но демо-тренировка работает лучше.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...