일반 소개
옵텍시티는 옵텍시티 팀이 개발한 GitHub의 오픈 소스 프로젝트입니다. 이 프로젝트의 핵심은 인간의 데모 데이터를 사용하여 컴퓨터 작업, 특히 웹 페이지 작업을 완료하도록 AI를 훈련시키는 것입니다. 이 프로젝트에는 사용자가 작업을 기록하고, 데이터를 처리하고, 모델을 훈련하여 AI가 버튼 클릭이나 양식 작성과 같은 작업을 학습할 수 있도록 하는 세 가지 코드 라이브러리인 ComputerGYM, AgentAI 및 Playwright가 포함되어 있습니다. 모든 코드는 무료이며 사용자가 다운로드하여 수정할 수 있습니다. 향후에는 자체 탐색, 소프트웨어 문서 및 YouTube 동영상 교육도 지원될 예정입니다.

기능 목록
- 웹 작업을 완료하도록 AI를 학습시키기 위한 인간 작업 데모 녹화를 지원합니다.
- 클릭 및 양식 작업을 포함한 MiniWoB++와 같은 작업 환경을 제공합니다.
- 데모 데이터를 처리하여 교육용 포맷을 생성합니다.
- Gemini, vLLM 및 기타 모델이 지원되며 LLaMA-Factory로 미세 조정할 수 있습니다.
- 오픈 소스 코드를 다운로드하여 쉽게 사용자 지정할 수 있습니다.
- Playwright와 통합하여 웹 자동화 기능을 강화하세요.
도움말 사용
설치 프로세스
옵텍시티를 사용하려면 먼저 환경을 준비해야 합니다. 단계는 다음과 같습니다:
- 코드 다운로드
터미널에 입력합니다:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
이렇게 하면 3개의 코드 라이브러리가 다운로드됩니다.
- 구성 환경
Conda로 환경을 만드세요:
conda create -n optexity python=3.10 nodejs
conda activate optexity
- 종속성 설치
ComputerGYM 및 AgentAI를 설치합니다:
pip install -e ComputerGYM
pip install -e AgentAI
Playwright를 다시 설치합니다:
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
주요 기능
녹화된 데모
- 설정
demonstration_config.yaml
참조demonstration_config_example.yaml
작업의 목표를 적습니다(예: "버튼 클릭"). - 녹화를 실행합니다:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
시스템은 마우스와 키보드 동작을 기록합니다.
데이터 처리
후처리 데이터를 기록합니다:
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
이렇게 하면 작업이 AI가 읽을 수 있는 형식으로 변환됩니다.
학습 데이터 생성
에이전트AI로 교육 파일을 생성하세요:
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
파일은 train_data
폴더를 LLaMA-Factory에 맞게 조정했습니다.
교육 모델
LLaMA-Factory로 훈련된 모델은 해당 설명서를 참조하세요. 훈련 후 모델은 다음 위치에 배포됩니다. http://localhost:8000
.
AI 테스트
HubSpot에서 통화 변경과 같은 AI 효과를 테스트하세요:
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
결과가 터미널에 표시됩니다.
주요 기능 작동
인간 데모 교육
옵텍시티의 가장 큰 특징은 사람의 동작으로 AI를 가르친다는 점입니다. 사용자가 동작을 한 번 녹음하면 AI가 이를 반복하는 방법을 학습합니다. 녹음과 처리가 쉬워 초보자도 쉽게 사용할 수 있습니다.
원본 모델 테스트
바로 사용해보고 싶어요. 쌍둥이자리 모델? 실행하세요:
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
열쇠는 https://aistudio.google.com/apikey
무료로 다운로드하세요.
MiniWoB++ 통합
MiniWoB++는 클릭 및 양식과 같은 작업을 제공합니다. 런타임에 AI가 목표를 완료하려고 시도하면 터미널에 성공률이 표시됩니다.
오픈 소스 확장
세 가지 코드베이스는 모두 오픈 소스입니다. 코드를 변경하여 새로운 작업과 같은 기능을 추가하거나 Playwright 로직을 조정할 수 있으며, GitHub에 제출하면 공식적인 프로세스의 일부가 됩니다.
운영 프로세스 요약
- 코드 베이스 및 환경을 설치합니다.
- 프레젠테이션 및 프로세스 데이터를 기록하세요.
- 학습 데이터를 생성하고 모델을 학습시킵니다.
- AI를 테스트하고 매개변수를 조정합니다.
단계가 간단하고 몇 분 안에 시작할 수 있습니다.
애플리케이션 시나리오
- AI 연구
연구원들은 웹 작업에서 AI 성능을 테스트하는 데 이를 사용했습니다. - 웹 자동화
개발자는 AI를 사용하여 반복적인 작업을 자동화합니다. - 교육 실습
학생들은 이를 통해 AI 교육 과정을 학습합니다.
QA
- 프로그래밍 기초가 필요하신가요?
약간의 파이썬 및 터미널 지식이 필요하지만 튜토리얼은 상세하고 쉽게 따라할 수 있습니다. - LLaMA-Factory의 용도는 무엇인가요?
데모 데이터를 트레이닝 형식으로 변환하는 미세 조정 도구입니다. - 데모로 교육해야 하나요?
원본 모델을 직접 테스트할 필요는 없지만 데모 교육이 더 효과적입니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...