综合介绍
Optexity 是一个在 GitHub 上开源的项目,由 Optexity 团队开发。它的核心是用人类演示数据训练 AI 完成计算机任务,尤其是网页操作。项目包含三个代码库:ComputerGYM、AgentAI 和 Playwright,用户可以通过录制操作、处理数据和训练模型,让 AI 学会点击按钮或填写表单等任务。所有代码免费,用户可以下载和修改。未来还会支持自我探索、软件文档和 YouTube 视频训练。
功能列表
- 支持录制人类操作演示,训练 AI 完成网页任务。
- 提供 MiniWoB++ 等任务环境,包含点击和表单操作。
- 处理演示数据,生成训练用格式。
- 支持 Gemini、vLLM 等模型,可用 LLaMA-Factory 微调。
- 开源代码可下载,方便用户自定义功能。
- 集成 Playwright,提升网页自动化能力。
使用帮助
安装流程
要用 Optexity,需要先准备环境。以下是步骤:
- 下载代码
在终端输入:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
这会下载三个代码库。
- 配置环境
用 Conda 创建环境:
conda create -n optexity python=3.10 nodejs
conda activate optexity
- 安装依赖
安装 ComputerGYM 和 AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI
再安装 Playwright:
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
主要功能操作
录制演示
- 创建
demonstration_config.yaml
,参考demonstration_config_example.yaml
,写下任务目标(比如“点击按钮”)。 - 运行录制:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
系统会记录你的鼠标和键盘操作。
处理数据
录制后处理数据:
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
这会把操作转为 AI 可读格式。
生成训练数据
用 AgentAI 生成训练文件:
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
文件保存在 train_data
文件夹,适配 LLaMA-Factory。
训练模型
用 LLaMA-Factory 训练,具体看其文档。训练后模型部署在 http://localhost:8000
。
测试 AI
测试 AI 效果,比如在 HubSpot 改货币:
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
结果会显示在终端。
特色功能操作
人类演示训练
Optexity 的亮点是用人类操作教 AI。你录一次操作,AI 就能学会重复。录制和处理简单,新手也能用。
测试原始模型
想直接试 Gemini 模型?运行:
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
密钥可在 https://aistudio.google.com/apikey
免费获取。
MiniWoB++ 集成
MiniWoB++ 提供点击和表单等任务。运行时,AI 会尝试完成目标,终端显示成功率。
开源扩展
三个代码库都开源。你可以改代码加功能,比如新任务,或调整 Playwright 逻辑,提交到 GitHub 还能成为官方一部分。
操作流程总结
- 安装代码库和环境。
- 录制演示,处理数据。
- 生成训练数据并训练模型。
- 测试 AI,调整参数。
步骤清晰,几分钟就能上手。
应用场景
- AI 研究
研究者用它测试 AI 在网页任务上的表现。 - 网页自动化
开发者用 AI 自动完成重复操作。 - 教育实践
学生用它学习 AI 训练过程。
QA
- 需要编程基础吗?
需要一点 Python 和终端知识,但教程详细,容易学。 - LLaMA-Factory 有什么用?
它是微调工具,把演示数据转为训练格式。 - 必须用演示训练吗?
不必须,可以直接测试原始模型,但演示训练效果更好。