Allgemeine Einführung
OpenManus-RL ist eine Zusammenarbeit zwischen UIUC-Ulab und dem MetaGPT Als Open-Source-Projekt, das gemeinsam vom OpenManus-Team der Community entwickelt und auf GitHub gehostet wird, verbessert das Projekt die Argumentations- und Entscheidungsfähigkeiten von Large Language Model (LLM)-Intelligenzen durch Reinforcement Learning (RL)-Techniken und erforscht neue Tuning-Methoden, die auf den Erfahrungen von Modellen wie Deepseek-R1 und QwQ-32B basieren. Das Team macht seine Fortschritte regelmäßig öffentlich, mit vollständiger Transparenz von Code, Datensätzen und Testergebnissen, und unterstützt die Validierung der Ergebnisse in Benchmarks wie GAIA, AgentBench, WebShop, OSWorld und anderen. Das Projekt ermutigt Entwickler auf der ganzen Welt, Code, Datensätze oder Berechnungsressourcen beizusteuern, um gemeinsam ein effizientes Ökosystem für die Entwicklung intelligenter Körper aufzubauen.
Bisher hat die Entwicklung von Open Source Manus Jetzt, wo das letzte Puzzleteil an seinem Platz ist, gibt MetaGPT richtig Gas... Aber... MGX Natürliches kann abgedeckt werden Manus Mit all diesen Möglichkeiten ist die Open-Source-Reproduktion in der Tat ein Huckepackverfahren.
Funktionsliste
- Konstruktion einer intelligenten KörperumgebungOnline-RL-Tuning für Konfigurationswerkzeuge für die Smart Body-Umgebung.
- Erfassung von FlugbahndatenConnect-Modelle wie Deepseek-R1 und QwQ-32B zur Erfassung von Verhaltensdaten für komplexe Aufgaben.
- RL Tuning-UnterstützungReinforcement learning methods to support customised intelligent body behaviour.
- Benchmarking-IntegrationEingebauter WebShop, GAIA, OSWorld, AgentBench und andere Testumgebungen.
- DiversifizierungsstrategieIntegration von RL-Strategien wie Tree-of-Thoughts, Monte Carlo Tree Search.
- Gemeinschaftliche ZusammenarbeitDie Einreichung von Code, Datensätzen usw. ist zulässig, und wichtige Mitwirkende können Mitautoren der Arbeit werden.
- Austausch von Fortschritten in EchtzeitDemonstration des RL-Abstimmungsprozesses und der Ergebnisse durch dynamische Aktualisierungen.
Hilfe verwenden
Ablauf der Installation
OpenManus-RL ist einfach zu installieren und für Benutzer mit grundlegenden Python-Kenntnissen geeignet. Nachfolgend finden Sie die detaillierten Schritte:
1. die Erstellung der Conda-Umgebung
Um Abhängigkeitskonflikte zu vermeiden, wird Conda empfohlen:
conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
- Voraussetzungen: Conda muss installiert sein und kann von derOffizielle Website von AnacondaHerunterladen.
- Nach der Aktivierung zeigt das Terminal
(openmanus-rl)
.
2. klonen von Projekten
Stellen Sie sicher, dass Git installiert ist (prüfen Sie:git --version
Wenn Sie die Software nicht installieren, können Sie sie von der Websitegit-scm.(Download):
git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
- Laden Sie den Code herunter und wechseln Sie in das Projektverzeichnis.
3. die Installation von Abhängigkeiten
Führen Sie es im Stammverzeichnis des Projekts aus:
pip install -r anforderungen.txt
- Wenn der Download langsam ist, verwenden Sie einen inländischen Mirror:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- Visualisierungstools erfordern eine zusätzliche Installation:
pip install matplotlib numpy
4. die Konfigurationsmodelle und Datensätze
- Überwachte Feinabstimmung (SFT): Geben Sie das Modell und den Datensatz an:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
- Verstärkungslernen Tuning (GRPO): Konfigurieren Sie die Belohnungsfunktion:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_ funcs Genauigkeit Format tag_count
- Der Datensatz ist erhältlich bei derUmarmungsgesichtErhalten.
5. die Durchführung des Projekts
- Einzelne GPU mit SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
- Multi-GPU mit GRPO (Konfiguration erforderlich)
null3.yaml
):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output
Hauptfunktionen
Konstruktion einer intelligenten Körperumgebung
- Verfahren::
- in Bewegung sein
python -m openmanus_rl.sft
Erzeugen Sie die Basisumgebung. - Änderung von Konfigurationsdateien (z. B. Missionsziele oder Belohnungsfunktionen).
- vollziehen
python -m openmanus_rl.grpo
Starten Sie die Abstimmung.
- in Bewegung sein
- VerwendungsszenarienAnpassung der intelligenten Körperumgebung an spezifische Aufgaben (z. B. Einkaufsentscheidungen).
Datenerhebung und Tests
- Verfahren::
- Konfigurationsmodell (z. B. Deepseek-R1):
python -m openmanus_rl.grpo --model_name_oder_pfad Tiefensuche-R1
- Führen Sie den Test durch:
--Benchmark GAIA
Die Ergebnisse werden gespeichert inDaten/
Katalog.
- VerwendungsszenarienAnalysis of the performance of intelligences in complex tasks.
RL-Abstimmungsverfahren
- Verfahren::
- GRPO-Modus ausführen:
python -m openmanus_rl.grpo --reward_funcs Genauigkeit
- Anzeigen von Trainingsprotokollen, Modellen gespeichert in
daten/grpo-ausgangsdaten
.
- VerwendungsszenarienOptimierung des intelligenten Körperverhaltens, z. B. zur Steigerung des Kauferfolgs im WebShop.
Beiträge der Gemeinschaft
- Verfahren::
- Forken Sie das Projekt auf ein persönliches GitHub-Konto.
- Lokale Änderung und Einreichung:
git add .
git commit -m "RL-Strategie optimieren"
git push origin main
- Reichen Sie einen Pull Request ein, oder kontaktieren Sie uns per E-Mail
kunlunz2@illinois.edu
.
- VerwendungsszenarienBeitrag zu neuen Algorithmen oder Datensätzen und Beteiligung an der Kernentwicklung.
Ausgewählte Funktionen
RL Tuning-Unterstützung
- Wie es funktioniertGRPO ausführen und dabei die Belohnungsfunktion angeben (z.B.
Genauigkeit
), zeigt der Trainingsprozess ein Echtzeitprotokoll an, und das Modell wird nach Abschluss in einem bestimmten Verzeichnis gespeichert. - WirkungIntelligente Körper können ihr Verhalten an die jeweilige Aufgabe anpassen, z. B. durch Optimierung der multimodalen Aufgabenerfüllung in OSWorld.
Benchmarking-Integration
- Wie es funktioniert: Lauf
python -m openmanus_rl.grpo --benchmark AgentBench
Das System erstellt automatisch Berichte über Erfolgsquoten, Antwortzeiten usw. - WirkungQuantitative Metriken, die den Entwicklern den Vergleich der Modellleistung erleichtern.
Diversifizierungsstrategie
- Wie es funktioniert: Wählen Sie die Richtlinie in der Konfigurationsdatei aus (z. B.
Gedankensplitter
), führen Sie den Tuning-Befehl aus, um die Wirkung zu testen. - WirkungEnhancing Intelligentsia's Reasoning Ability in Long-Range Planning Tasks.
OpenManus-RL nutzt diese Funktionen, um den Benutzern einen schnellen Einstieg zu ermöglichen. Das Projekt bietet auch eine Community-Gruppe (siehe GitHub "Community Group"), der Sie beitreten können, um mit den Entwicklern zu kommunizieren und die neuesten Informationen zu erhalten.