TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero
Общее представление TinyZero - это модель обучения с подкреплением на основе veRL, разработанная для воспроизведения производительности DeepSeeK-R1 Zero в задачах обратного отсчета и умножения. Удивительно, но стоимость проекта составляет всего 30 долларов (при использовании 2xH2...

































































































