Search-R1: Aprendizaje por refuerzo para entrenar grandes modelos de búsqueda y razonamiento
Introducción general Search-R1 es un proyecto de código abierto, desarrollado por PeterGriffinJin en GitHub, basado en el framework veRL. Entrena grandes modelos lingüísticos (LLM) mediante técnicas de aprendizaje por refuerzo (RL), lo que permite a los modelos...