TinyZero: eine kostengünstige Nachbildung von DeepSeeK-R1 Zeros Epiphanie-Effekt

Neueste AI-RessourcenGeschrieben vor 8 Monaten AI-Austauschkreis

Allgemeine Einführung

TinyZero ist ein veRL-basiertes Modell für verstärkendes Lernen, das entwickelt wurde, um die DeepSeeK-R1 Zeros Leistung bei Countdown- und Multiplikationsaufgaben. Erstaunlicherweise erreicht das Projekt die gleichen Erkenntnisse wie DeepSeeK-R1 Zero bei laufenden Kosten von nur 30 $ (weniger als 5 Stunden mit 2xH200 zu 6,4 $ pro Stunde). Durch Reinforcement Learning (RL) ist das 3B Base Language Model (LM) in der Lage, selbstständig Selbstvalidierungs- und Suchfunktionen zu entwickeln. Die Benutzer können die Leistungsfähigkeit und Innovation von TinyZero durch einen einfachen Einrichtungs- und Trainingsprozess erleben.

Funktionsliste

Countdown-AufgabeUnterstützung von Datenaufbereitungs- und Trainingsprozessen, damit die Modelle bei Countdown-Aufgaben lernen können.
MultiplikationsaufgabenUnterstützung von Datenaufbereitung und Trainingsprozessen, damit die Modelle bei Multiplikationsaufgaben lernen können.
Unterstützung für einzelne GPUsFür Modellparameter, die kleiner oder gleich 1,5B sind.
Multi-GPU-UnterstützungModelle, die auf größere Parameter anwendbar sind, sind in der Lage, ausgefeilte Argumentationsfähigkeiten zu entwickeln.
Ablation anweisenExperimente zur Unterstützung des QWen-2.5-3B Instruct-Modells.
Tools zur QualitätsverbesserungZu den Werkzeugen gehören flash-attn, wandb, IPython und matplotlib, um das Modelltraining und die Nutzung zu verbessern.

Hilfe verwenden

Einbauverfahren

Erstellen Sie eine virtuelle Umgebung:
```
conda create -n zero python=3.9
```

Installieren Sie PyTorch (optional):

pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

Installieren Sie vllm:
```
pip3 install vllm==0.6.3
```
Strahl installieren:
```
pip3 install ray
```
Installieren Sie verl:
```
pip install -e .
```

Installieren Sie flash-attn:

pip3 install flash-attn --no-build-isolation

Installation von Tools zur Qualitätsverbesserung:
```
pip install wandb IPython matplotlib
```

Funktion Betriebsablauf

Countdown-Aufgabe

Aufbereitung der Daten:

conda activate zero
python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

Ausbildungsprozess:

conda activate zero
export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

3B+ Modellschulung

Aufbereitung der Daten:

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

Ausbildungsprozess:

conda activate zero
export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

Neueste AI-Ressourcen # AI Java Open Source Projekt

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Seed-VC: unterstützt die Echtzeitkonvertierung von Sprache und Gesang mit weniger Samples

vor 6 Monaten

033.8K

Diagramming AI: Online-Entwurf von UML-Diagrammen und Workflow-Diagrammen mit AI

Neueste AI-Ressourcen # AI Whiteboard mit Infografik

vor 9 Monaten

021.4K

Plug-in für ComfyUI zur Bereitstellung von Videogenerierungsfunktionen auf der Grundlage von Wan 2.1

Neueste AI-Ressourcen # AI Bild zu Video # AI Java Open Source Projekt # AI Text zu Video

vor 6 Monaten

027.7K

AgentIQ: Ein Open-Source-Tool für die flexible Anbindung und Verwaltung von KI-Intelligenzen

Neueste AI-Ressourcen # AI Java Open Source Projekt # Entwicklungsrahmen für intelligente Körper

vor 6 Monaten

016.8K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

TinyZero: eine kostengünstige Nachbildung von DeepSeeK-R1 Zeros Epiphanie-Effekt

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Funktion Betriebsablauf

Countdown-Aufgabe

3B+ Modellschulung

Open R1: Umarmendes Gesicht repliziert den DeepSeek-R1 Trainingsprozess

Fast GraphRAG: Ein hochpräzises und kostengünstiges Werkzeug zur Erzeugung grafischer Sucherweiterungen

Ähnliche Artikel

Seed-VC: unterstützt die Echtzeitkonvertierung von Sprache und Gesang mit weniger Samples

Diagramming AI: Online-Entwurf von UML-Diagrammen und Workflow-Diagrammen mit AI

Plug-in für ComfyUI zur Bereitstellung von Videogenerierungsfunktionen auf der Grundlage von Wan 2.1

AgentIQ: Ein Open-Source-Tool für die flexible Anbindung und Verwaltung von KI-Intelligenzen

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

TinyZero: eine kostengünstige Nachbildung von DeepSeeK-R1 Zeros Epiphanie-Effekt

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Funktion Betriebsablauf

Countdown-Aufgabe

3B+ Modellschulung

Open R1: Umarmendes Gesicht repliziert den DeepSeek-R1 Trainingsprozess

Fast GraphRAG: Ein hochpräzises und kostengünstiges Werkzeug zur Erzeugung grafischer Sucherweiterungen

Ähnliche Artikel

Seed-VC: unterstützt die Echtzeitkonvertierung von Sprache und Gesang mit weniger Samples

Diagramming AI: Online-Entwurf von UML-Diagrammen und Workflow-Diagrammen mit AI

Plug-in für ComfyUI zur Bereitstellung von Videogenerierungsfunktionen auf der Grundlage von Wan 2.1

AgentIQ: Ein Open-Source-Tool für die flexible Anbindung und Verwaltung von KI-Intelligenzen

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel