AI个人学习
和实操指南
豆包Marscode1

Optexity:用人类演示训练AI执行网页操作的开源项目

综合介绍

Optexity 是一个在 GitHub 上开源的项目,由 Optexity 团队开发。它的核心是用人类演示数据训练 AI 完成计算机任务,尤其是网页操作。项目包含三个代码库:ComputerGYM、AgentAI 和 Playwright,用户可以通过录制操作、处理数据和训练模型,让 AI 学会点击按钮或填写表单等任务。所有代码免费,用户可以下载和修改。未来还会支持自我探索、软件文档和 YouTube 视频训练。

Optexity:用人类演示训练AI执行网页操作的开源项目-1


 

功能列表

  • 支持录制人类操作演示,训练 AI 完成网页任务。
  • 提供 MiniWoB++ 等任务环境,包含点击和表单操作。
  • 处理演示数据,生成训练用格式。
  • 支持 Gemini、vLLM 等模型,可用 LLaMA-Factory 微调。
  • 开源代码可下载,方便用户自定义功能。
  • 集成 Playwright,提升网页自动化能力。

 

使用帮助

安装流程

要用 Optexity,需要先准备环境。以下是步骤:

  1. 下载代码
    在终端输入:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

这会下载三个代码库。

  1. 配置环境
    用 Conda 创建环境:
conda create -n optexity python=3.10 nodejs
conda activate optexity
  1. 安装依赖
    安装 ComputerGYM 和 AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI

再安装 Playwright:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

主要功能操作

录制演示

  1. 创建 demonstration_config.yaml,参考 demonstration_config_example.yaml,写下任务目标(比如“点击按钮”)。
  2. 运行录制:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

系统会记录你的鼠标和键盘操作。

处理数据

录制后处理数据:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

这会把操作转为 AI 可读格式。

生成训练数据

用 AgentAI 生成训练文件:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

文件保存在 train_data 文件夹,适配 LLaMA-Factory。

训练模型

用 LLaMA-Factory 训练,具体看其文档。训练后模型部署在 http://localhost:8000

测试 AI

测试 AI 效果,比如在 HubSpot 改货币:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

结果会显示在终端。

特色功能操作

人类演示训练

Optexity 的亮点是用人类操作教 AI。你录一次操作,AI 就能学会重复。录制和处理简单,新手也能用。

测试原始模型

想直接试 Gemini 模型?运行:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

密钥可在 https://aistudio.google.com/apikey 免费获取。

MiniWoB++ 集成

MiniWoB++ 提供点击和表单等任务。运行时,AI 会尝试完成目标,终端显示成功率。

开源扩展

三个代码库都开源。你可以改代码加功能,比如新任务,或调整 Playwright 逻辑,提交到 GitHub 还能成为官方一部分。

操作流程总结

  1. 安装代码库和环境。
  2. 录制演示,处理数据。
  3. 生成训练数据并训练模型。
  4. 测试 AI,调整参数。

步骤清晰,几分钟就能上手。

 

应用场景

  1. AI 研究
    研究者用它测试 AI 在网页任务上的表现。
  2. 网页自动化
    开发者用 AI 自动完成重复操作。
  3. 教育实践
    学生用它学习 AI 训练过程。

 

QA

  1. 需要编程基础吗?
    需要一点 Python 和终端知识,但教程详细,容易学。
  2. LLaMA-Factory 有什么用?
    它是微调工具,把演示数据转为训练格式。
  3. 必须用演示训练吗?
    不必须,可以直接测试原始模型,但演示训练效果更好。
未经允许不得转载:首席AI分享圈 » Optexity:用人类演示训练AI执行网页操作的开源项目
zh_CN简体中文