AI Personal Learning
und praktische Anleitung

Open R1: Umarmendes Gesicht repliziert den DeepSeek-R1 Trainingsprozess

Allgemeine Einführung

Hugging Face's Open R1-Projekt ist ein vollständig quelloffenes DeepSeek-R1-Replikationsprojekt, das darauf abzielt, die fehlenden Teile der R1-Pipeline zu erstellen, damit jeder sie replizieren und darauf aufbauen kann. Das Projekt ist einfach gehalten und besteht hauptsächlich aus Skripten für das Training und die Auswertung von Modellen sowie die Erzeugung synthetischer Daten. Das Ziel des Open R1-Projekts ist es, den kompletten Prozess der Reproduktion der R1-Pipeline durch einen mehrstufigen Trainingsprozess zu demonstrieren, vom Basismodell bis hin zum Verstärkungslern-Tuning-Modell. Das Projekt enthält detaillierte Installations- und Nutzungsanweisungen und unterstützt Beiträge der Community und die Zusammenarbeit.

Wir werden beginnen mit DeepSeek-R1 Der technische Bericht dient als Leitfaden, der sich grob in drei Hauptschritte unterteilen lässt:


Schritt 1: Replizieren des R1-Distill-Modells durch Extraktion eines qualitativ hochwertigen Korpus aus DeepSeek-R1.

Schritt 2: Replikation DeepSeek Reines Reinforcement Learning (RL)-Verfahren zur Erstellung von R1-Zero. Dazu müssen möglicherweise neue große Datensätze für Mathematik, Inferenz und Code zusammengestellt werden.

Schritt 3: Demonstration, dass wir durch mehrstufiges Training von einem Basismodell zu einem RL-angepassten Modell übergehen können.

Open R1: Umarmendes Gesicht repliziert den Trainingsprozess von DeepSeek-R1-1

 

Funktionsliste

  • ModellschulungGRPO: Bietet Skripte für das Training von Modellen, einschließlich GRPO- und SFT-Trainingsmethoden.
  • ModellierungsbewertungR1: Bietet Skripte zur Bewertung der Modellleistung und unterstützt das R1-Benchmarking.
  • Erzeugung von DatenDistilabel: Skripte zur Erzeugung synthetischer Daten mit Distilabel.
  • Mehrstufige AusbildungDemonstration eines mehrstufigen Trainingsprozesses vom Basismodell bis zum Tuning durch Reinforcement Learning.
  • Beiträge der GemeinschaftUnterstützung der Community-Mitglieder bei der Bereitstellung von Datensätzen und Modellverbesserungen.

 

Hilfe verwenden

Ablauf der Installation

  1. Erstellen einer virtuellen Python-Umgebung::
   conda create -n openr1 python=3.11
conda activate openr1
  1. Installation von vLLM::
   pip install vllm==0.6.6.post1

Dadurch wird gleichzeitig PyTorch v2.5.1 installiert. Stellen Sie sicher, dass Sie diese Version für die Kompatibilität mit den vLLM-Binärdateien verwenden.

  1. Projektabhängigkeiten installieren::
   pip install -e ". [dev]"
  1. Anmeldung bei den Konten Hugging Face und Weights and Biases::
   huggingface-cli-Anmeldung
wandb-Anmeldung
  1. Installation von Git LFS::
   sudo apt-get install git-lfs

Richtlinien für die Verwendung

  1. Ausbildungsmodelle::
    • Verwenden Sie GRPO, um das Modell zu trainieren:
     python src/open_r1/grpo.py --datensatz
    
    • Verwenden Sie SFT, um das Modell zu trainieren:
     python src/open_r1/sft.py --datensatz
    
  2. Bewertungsmodell::
   python src/open_r1/evaluate.py --model  --benchmark
  1. Synthetische Daten generieren::
   python src/open_r1/generate.py --model  --output
  1. Mehrstufige Ausbildung::
    • Schritt 1: Replizieren Sie das Modell R1-Distill: bash
      python src/open_r1/distill.py --corpus
    • Schritt 2: Replizieren Sie die reine RL-Pipeline: bash
      python src/open_r1/rl_pipeline.py --datensatz
    • Schritt 3: Vom Basismodell zum RL-Tuning: bash
      python src/open_r1/multi_stage_training.py --model

Leitlinien für Beiträge

  1. Projekt Gabel: Forken Sie das Projekt zu Ihrem eigenen Konto auf GitHub.
  2. Klonprojekt::
   git clone https://github.com//open-r1.git
  1. Erstellen einer neuen Verzweigung::
   git checkout -b new-feature
  1. Änderungen einreichen::
   git add .
git commit -m "Neue Funktion hinzufügen"
git push origin new-feature
  1. Erstellen einer Pull-Anfrage: Reichen Sie einen Pull Request auf GitHub ein und beschreiben Sie die vorgenommenen Änderungen.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Open R1: Umarmendes Gesicht repliziert den DeepSeek-R1 Trainingsprozess

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)