AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

OpenManus-RL: Feinabstimmung großer Modelle zur Verbesserung der intelligenten Entscheidungsfindung im Körper

Dieser Artikel wurde am 2025-03-10 18:56 aktualisiert, ein Teil des Inhalts ist zeitkritisch, falls er ungültig ist, bitte eine Nachricht hinterlassen!

Allgemeine Einführung

OpenManus-RL ist eine Zusammenarbeit zwischen UIUC-Ulab und dem MetaGPT Als Open-Source-Projekt, das gemeinsam vom OpenManus-Team der Community entwickelt und auf GitHub gehostet wird, verbessert das Projekt die Argumentations- und Entscheidungsfähigkeiten von Large Language Model (LLM)-Intelligenzen durch Reinforcement Learning (RL)-Techniken und erforscht neue Tuning-Methoden, die auf den Erfahrungen von Modellen wie Deepseek-R1 und QwQ-32B basieren. Das Team macht seine Fortschritte regelmäßig öffentlich, mit vollständiger Transparenz von Code, Datensätzen und Testergebnissen, und unterstützt die Validierung der Ergebnisse in Benchmarks wie GAIA, AgentBench, WebShop, OSWorld und anderen. Das Projekt ermutigt Entwickler auf der ganzen Welt, Code, Datensätze oder Berechnungsressourcen beizusteuern, um gemeinsam ein effizientes Ökosystem für die Entwicklung intelligenter Körper aufzubauen.

Bisher hat die Entwicklung von Open Source Manus Jetzt, wo das letzte Puzzleteil an seinem Platz ist, gibt MetaGPT richtig Gas... Aber... MGX Natürliches kann abgedeckt werden Manus Mit all diesen Möglichkeiten ist die Open-Source-Reproduktion in der Tat ein Huckepackverfahren.

OpenManus-RL: Feinabstimmung von Modellen zur Verbesserung der Aufgabenerledigung durch intelligente Körper-1

 

Funktionsliste

  • Konstruktion einer intelligenten KörperumgebungOnline-RL-Tuning für Konfigurationswerkzeuge für die Smart Body-Umgebung.
  • Erfassung von FlugbahndatenConnect-Modelle wie Deepseek-R1 und QwQ-32B zur Erfassung von Verhaltensdaten für komplexe Aufgaben.
  • RL Tuning-UnterstützungReinforcement learning methods to support customised intelligent body behaviour.
  • Benchmarking-IntegrationEingebauter WebShop, GAIA, OSWorld, AgentBench und andere Testumgebungen.
  • DiversifizierungsstrategieIntegration von RL-Strategien wie Tree-of-Thoughts, Monte Carlo Tree Search.
  • Gemeinschaftliche ZusammenarbeitDie Einreichung von Code, Datensätzen usw. ist zulässig, und wichtige Mitwirkende können Mitautoren der Arbeit werden.
  • Austausch von Fortschritten in EchtzeitDemonstration des RL-Abstimmungsprozesses und der Ergebnisse durch dynamische Aktualisierungen.

Hilfe verwenden

Ablauf der Installation

OpenManus-RL ist einfach zu installieren und für Benutzer mit grundlegenden Python-Kenntnissen geeignet. Nachfolgend finden Sie die detaillierten Schritte:

1. die Erstellung der Conda-Umgebung

Um Abhängigkeitskonflikte zu vermeiden, wird Conda empfohlen:

conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
  • Voraussetzungen: Conda muss installiert sein und kann von derOffizielle Website von AnacondaHerunterladen.
  • Nach der Aktivierung zeigt das Terminal(openmanus-rl).

2. klonen von Projekten

Stellen Sie sicher, dass Git installiert ist (prüfen Sie:git --versionWenn Sie die Software nicht installieren, können Sie sie von der Websitegit-scm.(Download):

git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
  • Laden Sie den Code herunter und wechseln Sie in das Projektverzeichnis.

3. die Installation von Abhängigkeiten

Führen Sie es im Stammverzeichnis des Projekts aus:

pip install -r anforderungen.txt
  • Wenn der Download langsam ist, verwenden Sie einen inländischen Mirror:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • Visualisierungstools erfordern eine zusätzliche Installation:
pip install matplotlib numpy

4. die Konfigurationsmodelle und Datensätze

  • Überwachte Feinabstimmung (SFT): Geben Sie das Modell und den Datensatz an:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
  • Verstärkungslernen Tuning (GRPO): Konfigurieren Sie die Belohnungsfunktion:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_ funcs Genauigkeit Format tag_count

5. die Durchführung des Projekts

  • Einzelne GPU mit SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
  • Multi-GPU mit GRPO (Konfiguration erforderlich)null3.yaml):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Hauptfunktionen

Konstruktion einer intelligenten Körperumgebung

  • Verfahren::
    1. in Bewegung seinpython -m openmanus_rl.sftErzeugen Sie die Basisumgebung.
    2. Änderung von Konfigurationsdateien (z. B. Missionsziele oder Belohnungsfunktionen).
    3. vollziehenpython -m openmanus_rl.grpoStarten Sie die Abstimmung.
  • VerwendungsszenarienAnpassung der intelligenten Körperumgebung an spezifische Aufgaben (z. B. Einkaufsentscheidungen).

Datenerhebung und Tests

  • Verfahren::
    1. Konfigurationsmodell (z. B. Deepseek-R1):
python -m openmanus_rl.grpo --model_name_oder_pfad Tiefensuche-R1
  1. Führen Sie den Test durch:--Benchmark GAIADie Ergebnisse werden gespeichert inDaten/Katalog.
  • VerwendungsszenarienAnalysis of the performance of intelligences in complex tasks.

RL-Abstimmungsverfahren

  • Verfahren::
    1. GRPO-Modus ausführen:
python -m openmanus_rl.grpo --reward_funcs Genauigkeit
  1. Anzeigen von Trainingsprotokollen, Modellen gespeichert indaten/grpo-ausgangsdaten.
  • VerwendungsszenarienOptimierung des intelligenten Körperverhaltens, z. B. zur Steigerung des Kauferfolgs im WebShop.

Beiträge der Gemeinschaft

  • Verfahren::
    1. Forken Sie das Projekt auf ein persönliches GitHub-Konto.
    2. Lokale Änderung und Einreichung:
git add .
git commit -m "RL-Strategie optimieren"
git push origin main
  1. Reichen Sie einen Pull Request ein, oder kontaktieren Sie uns per E-Mailkunlunz2@illinois.edu.
  • VerwendungsszenarienBeitrag zu neuen Algorithmen oder Datensätzen und Beteiligung an der Kernentwicklung.

Ausgewählte Funktionen

RL Tuning-Unterstützung

  • Wie es funktioniertGRPO ausführen und dabei die Belohnungsfunktion angeben (z.B.Genauigkeit), zeigt der Trainingsprozess ein Echtzeitprotokoll an, und das Modell wird nach Abschluss in einem bestimmten Verzeichnis gespeichert.
  • WirkungIntelligente Körper können ihr Verhalten an die jeweilige Aufgabe anpassen, z. B. durch Optimierung der multimodalen Aufgabenerfüllung in OSWorld.

Benchmarking-Integration

  • Wie es funktioniert: Laufpython -m openmanus_rl.grpo --benchmark AgentBenchDas System erstellt automatisch Berichte über Erfolgsquoten, Antwortzeiten usw.
  • WirkungQuantitative Metriken, die den Entwicklern den Vergleich der Modellleistung erleichtern.

Diversifizierungsstrategie

  • Wie es funktioniert: Wählen Sie die Richtlinie in der Konfigurationsdatei aus (z. B.Gedankensplitter), führen Sie den Tuning-Befehl aus, um die Wirkung zu testen.
  • WirkungEnhancing Intelligentsia's Reasoning Ability in Long-Range Planning Tasks.

OpenManus-RL nutzt diese Funktionen, um den Benutzern einen schnellen Einstieg zu ermöglichen. Das Projekt bietet auch eine Community-Gruppe (siehe GitHub "Community Group"), der Sie beitreten können, um mit den Entwicklern zu kommunizieren und die neuesten Informationen zu erhalten.


CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " OpenManus-RL: Feinabstimmung großer Modelle zur Verbesserung der intelligenten Entscheidungsfindung im Körper

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)