OpenManus-RL: 지능형 신체 추론 및 의사 결정 향상을 위한 대규모 모델 미세 조정

최신 AI 리소스5개월 전 업데이트 AI 공유 서클
2K 00

일반 소개

OpenManus-RL은 UIUC-Ulab과 다음과 같이 협력하고 있습니다. MetaGPT 커뮤니티의 OpenManus 팀이 공동으로 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트인 이 프로젝트는 강화 학습(RL) 기술을 통해 대규모 언어 모델(LLM) 지능의 추론 및 의사 결정 능력을 향상시키고, Deepseek-R1 및 QwQ-32B 등의 모델 경험을 바탕으로 새로운 튜닝 방법을 모색합니다. 이 팀은 코드, 데이터 세트 및 테스트 결과를 완전히 투명하게 공개하여 정기적으로 진행 상황을 공개하고 GAIA, AgentBench, WebShop, OSWorld 등과 같은 벤치마크에서 결과의 검증을 지원합니다. 이 프로젝트는 전 세계 개발자가 코드, 데이터 세트 또는 컴퓨팅 리소스를 제공하여 스마트 바디 개발을 위한 효율적인 생태계를 공동으로 구축할 수 있도록 장려합니다.

지금까지 오픈 소스 구축 Manus 퍼즐의 마지막 조각이 제자리에 놓이면서 MetaGPT는 정말 잘 진행되고 있습니다... 하지만... MGX 내추럴 커버 가능 Manus 모든 기능을 갖춘 오픈 소스 재생산은 실제로 피기백을 하고 있습니다.

OpenManus-RL:微调大模型强化智能体推理与决策能力

 

기능 목록

  • 지능형 신체 환경 구축스마트바디 환경 구성 도구의 온라인 RL 튜닝을 제공합니다.
  • 궤적 데이터 수집복잡한 작업에 대한 행동 데이터를 수집하기 위해 Deepseek-R1 및 QwQ-32B와 같은 모델을 연결합니다.
  • RL 튜닝 지원맞춤형 지능형 신체 동작을 지원하는 강화 학습 방법.
  • 벤치마킹 통합기본 제공 WebShop, GAIA, OSWorld, AgentBench 및 기타 테스트 환경.
  • 다각화 전략생각의 나무, 몬테카를로 트리 검색과 같은 RL 전략의 통합.
  • 커뮤니티 협업코드, 데이터 세트 등의 제출이 허용되며, 중요한 기여자는 논문의 공동 저자가 될 수 있습니다.
  • 실시간 진행 상황 공유동적 업데이트를 통해 RL 튜닝 과정과 결과를 시연합니다.

도움말 사용

설치 프로세스

OpenManus-RL은 설치가 쉬우며 기본적인 파이썬 지식이 있는 사용자에게 적합합니다. 자세한 단계는 다음과 같습니다:

1. 콘다 환경 생성

종속성 충돌을 피하려면 Conda를 사용하는 것이 좋습니다:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl
  • 사전 요구 사항: Conda를 설치해야 하며 다음에서 다운로드할 수 있습니다.아나콘다 공식 웹사이트다운로드.
  • 활성화 후 단말기에 다음과 같이 표시됩니다.(openmanus-rl).

2. 프로젝트 복제

Git이 설치되어 있는지 확인합니다(확인:git --version소프트웨어를 설치하지 않은 경우 다음 링크에서 다운로드할 수 있습니다.git-scm.(다운로드):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL
  • 코드를 다운로드하고 프로젝트 디렉토리로 이동합니다.

3. 종속성 설치

프로젝트 루트 디렉터리에서 실행합니다:

pip install -r requirements.txt
  • 다운로드 속도가 느리면 국내 미러를 사용하세요:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 시각화 도구는 추가 설치가 필요합니다:
pip install matplotlib numpy

4. 구성 모델 및 데이터 세트

  • 감독형 미세 조정(SFT)모델 및 데이터 집합을 지정합니다:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
  • 강화 학습 튜닝(GRPO): 보상 기능을 구성합니다:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count
  • 데이터 세트는 다음에서 사용할 수 있습니다.허깅페이스Get.

5. 프로젝트 실행

  • SFT를 실행하는 단일 GPU:
python -m openmanus_rl.sft --output_dir data/sft-output
  • GRPO를 실행하는 멀티 GPU(구성 필요)zero3.yaml):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

주요 기능

지능형 신체 환경 구축

  • 절차::
    1. 움직여야 합니다.python -m openmanus_rl.sft기본 환경을 생성합니다.
    2. 구성 파일(예: 미션 목표 또는 보상 기능)을 수정합니다.
    3. 수행python -m openmanus_rl.grpo튜닝을 시작하세요.
  • 사용 시나리오특정 작업(예: 쇼핑 결정)에 맞게 지능형 신체 환경을 사용자 지정합니다.

데이터 수집 및 테스트

  • 절차::
    1. 구성 모델(예: Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
  1. 테스트를 실행합니다:--benchmark GAIA결과는 다음 위치에 저장됩니다.data/카탈로그.
  • 사용 시나리오복잡한 작업에서 인텔리전스의 성능을 분석합니다.

RL 튜닝 작업

  • 절차::
    1. GRPO 모드를 실행합니다:
python -m openmanus_rl.grpo --reward_funcs accuracy
  1. 교육 로그, 다음에 저장된 모델 보기data/grpo-output.
  • 사용 시나리오지능형 신체 행동 최적화(예: 웹샵 구매 성공률 향상).

커뮤니티 기여

  • 절차::
    1. 프로젝트를 개인 GitHub 계정으로 포크합니다.
    2. 로컬 수정 및 제출:
git add .  
git commit -m "优化RL策略"  
git push origin main
  1. 풀 리퀘스트를 제출하거나 이메일로 문의kunlunz2@illinois.edu.
  • 사용 시나리오새로운 알고리즘이나 데이터세트를 기여하고 핵심 개발에 참여하세요.

주요 기능

RL 튜닝 지원

  • 작동 방식: 보상 기능을 지정하여 GRPO를 실행합니다(예accuracy), 트레이닝 프로세스는 실시간 로그를 표시하고 완료되면 모델이 지정된 디렉터리에 저장됩니다.
  • 효과지능형 바디는 OSWorld에서 멀티모달 작업 성능을 최적화하는 등 작업에 맞게 동작을 조정할 수 있습니다.

벤치마킹 통합

  • 작동 방식: 실행python -m openmanus_rl.grpo --benchmark AgentBench를 클릭하면 시스템이 성공률, 응답 시간 등에 대한 보고서를 자동으로 생성합니다.
  • 효과개발자가 모델 성능을 비교하는 데 도움이 되는 정량적 지표를 제공합니다.

다각화 전략

  • 작동 방식: 구성 파일에서 정책을 선택합니다(예Tree-of-Thoughts), 튜닝 명령을 실행하여 효과를 테스트합니다.
  • 효과장기 계획 작업에서 인텔리전스의 추론 능력 향상.

OpenManus-RL은 이러한 기능을 사용하여 사용자가 빠르게 시작할 수 있도록 도와줍니다. 이 프로젝트는 또한 커뮤니티 그룹(GitHub "커뮤니티 그룹" 참조)을 제공하며, 여기에 가입하여 개발자와 소통하고 최신 정보를 얻을 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...