TinyZero: una réplica de bajo coste del efecto epifánico de DeepSeeK-R1 Zero
Introducción general TinyZero es un modelo de aprendizaje por refuerzo basado en veRL diseñado para replicar el rendimiento de DeepSeeK-R1 Zero en tareas de cuenta atrás y multiplicación. Sorprendentemente, el proyecto solo cuesta 30 dólares de ejecución (utilizando 2xH2...
































































































