Optexity: 사람의 시연을 통해 웹 작업을 수행하도록 AI를 훈련시키는 오픈 소스 프로젝트

최신 AI 리소스4 개월 전에 게시 됨 AI 공유 서클
1.3K 00

일반 소개

옵텍시티는 옵텍시티 팀이 개발한 GitHub의 오픈 소스 프로젝트입니다. 이 프로젝트의 핵심은 인간의 데모 데이터를 사용하여 컴퓨터 작업, 특히 웹 페이지 작업을 완료하도록 AI를 훈련시키는 것입니다. 이 프로젝트에는 사용자가 작업을 기록하고, 데이터를 처리하고, 모델을 훈련하여 AI가 버튼 클릭이나 양식 작성과 같은 작업을 학습할 수 있도록 하는 세 가지 코드 라이브러리인 ComputerGYM, AgentAI 및 Playwright가 포함되어 있습니다. 모든 코드는 무료이며 사용자가 다운로드하여 수정할 수 있습니다. 향후에는 자체 탐색, 소프트웨어 문서 및 YouTube 동영상 교육도 지원될 예정입니다.

Optexity:用人类演示训练AI执行网页操作的开源项目

 

기능 목록

  • 웹 작업을 완료하도록 AI를 학습시키기 위한 인간 작업 데모 녹화를 지원합니다.
  • 클릭 및 양식 작업을 포함한 MiniWoB++와 같은 작업 환경을 제공합니다.
  • 데모 데이터를 처리하여 교육용 포맷을 생성합니다.
  • Gemini, vLLM 및 기타 모델이 지원되며 LLaMA-Factory로 미세 조정할 수 있습니다.
  • 오픈 소스 코드를 다운로드하여 쉽게 사용자 지정할 수 있습니다.
  • Playwright와 통합하여 웹 자동화 기능을 강화하세요.

 

도움말 사용

설치 프로세스

옵텍시티를 사용하려면 먼저 환경을 준비해야 합니다. 단계는 다음과 같습니다:

  1. 코드 다운로드
    터미널에 입력합니다:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

이렇게 하면 3개의 코드 라이브러리가 다운로드됩니다.

  1. 구성 환경
    Conda로 환경을 만드세요:
conda create -n optexity python=3.10 nodejs
conda activate optexity
  1. 종속성 설치
    ComputerGYM 및 AgentAI를 설치합니다:
pip install -e ComputerGYM
pip install -e AgentAI

Playwright를 다시 설치합니다:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

주요 기능

녹화된 데모

  1. 설정 demonstration_config.yaml참조 demonstration_config_example.yaml작업의 목표를 적습니다(예: "버튼 클릭").
  2. 녹화를 실행합니다:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

시스템은 마우스와 키보드 동작을 기록합니다.

데이터 처리

후처리 데이터를 기록합니다:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

이렇게 하면 작업이 AI가 읽을 수 있는 형식으로 변환됩니다.

학습 데이터 생성

에이전트AI로 교육 파일을 생성하세요:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

파일은 train_data 폴더를 LLaMA-Factory에 맞게 조정했습니다.

교육 모델

LLaMA-Factory로 훈련된 모델은 해당 설명서를 참조하세요. 훈련 후 모델은 다음 위치에 배포됩니다. http://localhost:8000.

AI 테스트

HubSpot에서 통화 변경과 같은 AI 효과를 테스트하세요:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

결과가 터미널에 표시됩니다.

주요 기능 작동

인간 데모 교육

옵텍시티의 가장 큰 특징은 사람의 동작으로 AI를 가르친다는 점입니다. 사용자가 동작을 한 번 녹음하면 AI가 이를 반복하는 방법을 학습합니다. 녹음과 처리가 쉬워 초보자도 쉽게 사용할 수 있습니다.

원본 모델 테스트

바로 사용해보고 싶어요. 쌍둥이자리 모델? 실행하세요:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

열쇠는 https://aistudio.google.com/apikey 무료로 다운로드하세요.

MiniWoB++ 통합

MiniWoB++는 클릭 및 양식과 같은 작업을 제공합니다. 런타임에 AI가 목표를 완료하려고 시도하면 터미널에 성공률이 표시됩니다.

오픈 소스 확장

세 가지 코드베이스는 모두 오픈 소스입니다. 코드를 변경하여 새로운 작업과 같은 기능을 추가하거나 Playwright 로직을 조정할 수 있으며, GitHub에 제출하면 공식적인 프로세스의 일부가 됩니다.

운영 프로세스 요약

  1. 코드 베이스 및 환경을 설치합니다.
  2. 프레젠테이션 및 프로세스 데이터를 기록하세요.
  3. 학습 데이터를 생성하고 모델을 학습시킵니다.
  4. AI를 테스트하고 매개변수를 조정합니다.

단계가 간단하고 몇 분 안에 시작할 수 있습니다.

 

애플리케이션 시나리오

  1. AI 연구
    연구원들은 웹 작업에서 AI 성능을 테스트하는 데 이를 사용했습니다.
  2. 웹 자동화
    개발자는 AI를 사용하여 반복적인 작업을 자동화합니다.
  3. 교육 실습
    학생들은 이를 통해 AI 교육 과정을 학습합니다.

 

QA

  1. 프로그래밍 기초가 필요하신가요?
    약간의 파이썬 및 터미널 지식이 필요하지만 튜토리얼은 상세하고 쉽게 따라할 수 있습니다.
  2. LLaMA-Factory의 용도는 무엇인가요?
    데모 데이터를 트레이닝 형식으로 변환하는 미세 조정 도구입니다.
  3. 데모로 교육해야 하나요?
    원본 모델을 직접 테스트할 필요는 없지만 데모 교육이 더 효과적입니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...