OpenManus-RL: Feinabstimmung großer Modelle zur Verbesserung der intelligenten Entscheidungsfindung im Körper

Neueste AI-RessourcenAktualisiert vor 6 Monaten AI-Austauschkreis

13.4K 00

Allgemeine Einführung

OpenManus-RL ist eine Zusammenarbeit zwischen UIUC-Ulab und dem MetaGPT Als Open-Source-Projekt, das gemeinsam vom OpenManus-Team der Community entwickelt und auf GitHub gehostet wird, verbessert das Projekt die Argumentations- und Entscheidungsfähigkeiten von Large Language Model (LLM)-Intelligenzen durch Reinforcement Learning (RL)-Techniken und erforscht neue Tuning-Methoden, die auf den Erfahrungen von Modellen wie Deepseek-R1 und QwQ-32B basieren. Das Team macht seine Fortschritte regelmäßig öffentlich, mit vollständiger Transparenz von Code, Datensätzen und Testergebnissen, und unterstützt die Validierung der Ergebnisse in Benchmarks wie GAIA, AgentBench, WebShop, OSWorld und anderen. Das Projekt ermutigt Entwickler auf der ganzen Welt, Code, Datensätze oder Berechnungsressourcen beizusteuern, um gemeinsam ein effizientes Ökosystem für die Entwicklung intelligenter Körper aufzubauen.

Bisher hat die Entwicklung von Open Source Manus Jetzt, wo das letzte Puzzleteil an seinem Platz ist, gibt MetaGPT richtig Gas... Aber... MGX Natürliches kann abgedeckt werden Manus Mit all diesen Möglichkeiten ist die Open-Source-Reproduktion in der Tat ein Huckepackverfahren.

Funktionsliste

Konstruktion einer intelligenten KörperumgebungOnline-RL-Tuning des Smartbody-Umgebungskonfigurationswerkzeugs.
Erfassung von FlugbahndatenConnect-Modelle wie Deepseek-R1 und QwQ-32B zur Erfassung von Verhaltensdaten für komplexe Aufgaben.
RL Tuning-UnterstützungReinforcement learning methods to support customised intelligent body behaviour.
Benchmarking-IntegrationEingebauter WebShop, GAIA, OSWorld, AgentBench und andere Testumgebungen.
DiversifizierungsstrategieIntegration von RL-Strategien wie Tree-of-Thoughts, Monte Carlo Tree Search.
Gemeinschaftliche ZusammenarbeitDie Einreichung von Code, Datensätzen usw. ist zulässig, und wichtige Mitwirkende können Mitautoren der Arbeit werden.
Austausch von Fortschritten in EchtzeitDemonstration des RL-Abstimmungsprozesses und der Ergebnisse durch dynamische Aktualisierungen.

Hilfe verwenden

Einbauverfahren

OpenManus-RL ist einfach zu installieren und für Benutzer mit grundlegenden Python-Kenntnissen geeignet. Nachfolgend finden Sie die detaillierten Schritte:

1. die Erstellung der Conda-Umgebung

Um Abhängigkeitskonflikte zu vermeiden, wird Conda empfohlen:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl

Voraussetzungen: Conda muss installiert sein und kann von derOffizielle Website von AnacondaHerunterladen.
Nach der Aktivierung zeigt das Terminal(openmanus-rl).

2. klonen von Projekten

Stellen Sie sicher, dass Git installiert ist (prüfen Sie:git --versionWenn Sie die Installation nicht haben, können Sie sie von dergit-scm.(Download):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL

Laden Sie den Code herunter und wechseln Sie in das Projektverzeichnis.

3. die Installation von Abhängigkeiten

Führen Sie es im Stammverzeichnis des Projekts aus:

pip install -r requirements.txt

Wenn der Download langsam ist, verwenden Sie einen inländischen Mirror:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

Visualisierungstools erfordern eine zusätzliche Installation:

pip install matplotlib numpy

4. die Konfigurationsmodelle und Datensätze

Überwachte Feinabstimmung (SFT): Geben Sie das Modell und den Datensatz an:

python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL

Verstärkungslernen Tuning (GRPO): Konfigurieren Sie die Belohnungsfunktion:

python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

Der Datensatz ist erhältlich bei derUmarmungsgesichtErhalten.

5. die Durchführung des Projekts

Einzelne GPU mit SFT:

python -m openmanus_rl.sft --output_dir data/sft-output

Multi-GPU mit GRPO (Konfiguration erforderlich)zero3.yaml):

accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Hauptfunktionen

Konstruktion einer intelligenten Körperumgebung

Verfahren::
1. in Bewegung seinpython -m openmanus_rl.sftErzeugen Sie die Basisumgebung.
2. Änderung von Konfigurationsdateien (z. B. Missionsziele oder Belohnungsfunktionen).
3. vollziehenpython -m openmanus_rl.grpoStarten Sie die Abstimmung.
VerwendungsszenarienAnpassung der intelligenten Körperumgebung an spezifische Aufgaben (z. B. Einkaufsentscheidungen).

Datenerhebung und Tests

Verfahren::
1. Konfigurationsmodell (z. B. Deepseek-R1):

python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1

Führen Sie den Test durch:--benchmark GAIADie Ergebnisse werden gespeichert indata/Katalog.

VerwendungsszenarienAnalysis of the performance of intelligences in complex tasks.

RL-Abstimmungsverfahren

Verfahren::
1. GRPO-Modus ausführen:

python -m openmanus_rl.grpo --reward_funcs accuracy

Anzeigen von Trainingsprotokollen, Modellen gespeichert indata/grpo-output.

VerwendungsszenarienOptimierung des intelligenten Körperverhaltens, z. B. zur Steigerung des Kauferfolgs im WebShop.

Beiträge der Gemeinschaft

Verfahren::
1. Forken Sie das Projekt auf Ihr persönliches GitHub-Konto.
2. Lokale Änderung und Einreichung:

git add .  
git commit -m "优化RL策略"  
git push origin main

Reichen Sie einen Pull Request ein, oder kontaktieren Sie uns per E-Mailkunlunz2@illinois.edu.

VerwendungsszenarienBeitrag zu neuen Algorithmen oder Datensätzen und Beteiligung an der Kernentwicklung.

Ausgewählte Funktionen

RL Tuning-Unterstützung

Wie es funktioniertGRPO ausführen und dabei die Belohnungsfunktion angeben (z.B.accuracy), zeigt der Trainingsprozess ein Echtzeitprotokoll an, und das Modell wird nach Abschluss in einem bestimmten Verzeichnis gespeichert.
WirkungIntelligente Körper können ihr Verhalten an die jeweilige Aufgabe anpassen, z. B. durch Optimierung der multimodalen Aufgabenerfüllung in OSWorld.

Benchmarking-Integration

Wie es funktioniert: Laufpython -m openmanus_rl.grpo --benchmark AgentBenchDas System erstellt automatisch Berichte über Erfolgsquoten, Antwortzeiten usw.
WirkungQuantitative Metriken, die den Entwicklern den Vergleich der Modellleistung erleichtern.

Diversifizierungsstrategie

Wie es funktioniert: Wählen Sie die Richtlinie in der Konfigurationsdatei aus (z. B.Tree-of-Thoughts), führen Sie den Tuning-Befehl aus, um die Wirkung zu testen.
WirkungEnhancing Intelligentsia's Reasoning Ability in Long-Range Planning Tasks.

OpenManus-RL nutzt diese Funktionen, um den Benutzern einen schnellen Einstieg zu ermöglichen. Das Projekt bietet auch eine Community-Gruppe (siehe GitHub "Community Group"), der Sie beitreten können, um mit den Entwicklern zu kommunizieren und die neuesten Informationen zu erhalten.