Search-R1: обучение с подкреплением для обучения больших моделей для поиска и рассуждений
Общее представление Search-R1 - это проект с открытым исходным кодом, разработанный PeterGriffinJin на GitHub и построенный на фреймворке veRL. Он обучает большие языковые модели (LLM) с помощью методов обучения с подкреплением (RL), позволяя моделям автономно обучаться...