Replicando DeepSeek-R1: 8K ejemplos matemáticos ayudan a pequeños modelos a lograr avances en inferencia mediante aprendizaje por refuerzo
Github: https://github.com/hkust-nlp/simpleRL-reason Este blog mostrará una réplica del entrenamiento de DeepSeek-R1-Zero y DeepSeek-R1...






























































































![[转]从零拆解一款火爆的浏览器自动化智能体,4步学会设计自主决策Agent](https://aisharenet.com/wp-content/uploads/2025/01/e0a98a1365d61a3.png)



