Показано, что:RL превосходит SFT в обучении обобщенным знаниям, особенно в мультимодальных задачах, демонстрируя более сильные способности к рассуждению и визуальному распознаванию

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
6.5K 00

краткое содержание

В области искусственного интеллекта.базовая модель(например, крупномасштабные языковые модели и визуальные языковые модели) стали центральной движущей силой технологического прогресса. Однако как эффективно расширить возможности этих моделейспособность к обобщениюПроблема адаптации к сложности и изменчивости реальных сценариев остается одной из главных. В настоящее время.Супервизорная тонкая настройка (SFT) и обучение с подкреплением (RL)являются двумя широко распространенными методами пост-обучения, однако их роль и влияние на улучшение обобщающей способности моделей остаются неясными.

Этот тезис подтверждаетсяУглубленное сравнительное исследованиеМы систематически исследуем влияние SFT и RL на обобщающие возможности базовой модели. Мы фокусируемся на следующих двух ключевых аспектах:

  1. Обобщение на основе текстовых правил: Мы разработали систему под названием GeneralPoints карточной игры с арифметическими рассуждениями, в которой оценивается работа модели при различных вариантах правил.
  2. Визуальное обобщение: Мы использовали V-IRL задача, навигационная среда, основанная на реальном визуальном вводе, для проверки способности модели адаптироваться к изменениям визуального ввода.

Благодаря серииТщательные эксперименты и анализМы пришли к следующим важным выводам:

  • RL превосходит SFT как в обобщении правил, так и в визуальном обобщении: RL способен эффективно обучаться и применять новые правила, сохраняя при этом хорошую производительность при наличии вариаций визуального ввода. В отличие от этого, SFT имеет тенденцию запоминать обучающие данные и с трудом адаптируется к невидимым вариантам.
  • RL улучшает визуальное распознавание: В визуальном моделировании языка (VLM) RL не только улучшает рассуждения, но и улучшает визуальное распознавание, в то время как SFT уменьшает визуальное распознавание.
  • SFT имеет решающее значение для обучения RL: SFT является ключевым фактором успеха обучения RL, когда базовая модель не обладает хорошей способностью следовать инструкциям. Он стабилизирует выходной формат модели, чтобы RL могла в полной мере использовать ее производительность.
  • Увеличение числа итераций проверки улучшает обобщение RL: При обучении RL увеличение числа итераций проверки может еще больше улучшить обобщение модели.

Эти выводыПредоставляет ценные сведения для будущих исследований и приложений ИИВ данном исследовании показано, что RL обладает большим потенциалом в сложных мультимодальных задачах. Наше исследование не только выявляет различные роли SFT и RL, но и предлагает новые идеи о том, как более эффективно сочетать эти два подхода для построения более мощных и надежных базовых моделей.

Независимо от того, являетесь ли вы исследователем ИИ, инженером или читателем, интересующимся будущим ИИ, в этой статье вы найдете полезные сведения и практические рекомендации. Давайте углубимся в тайны SFT и RL, чтобы выявить критический путь к обобщению базовой модели.

 

Оригинальный текст:https://tianzhechu.com/SFTvsRL/assets/sftvsrl_paper.pdf

 

скорочтение

1. RL превосходит SFT в обобщении правил

Заключение:
RL способен эффективно изучать и обобщать текстовые правила, в то время как SFT склонен запоминать обучающие данные и с трудом адаптируется к неизвестным вариантам правил.

Пример:
RL превосходит SFT по производительности вне распределения (OOD) в задачах GeneralPoints и V-IRL.

  • GeneralPoints (GP-L):
    • RL. Коэффициент успешности составил 15,01 TP3T, что больше, чем 11,51 TP3T на начальной контрольной точке. +3.5%.
    • SFT. Коэффициент успешности составил 3,41 TP3T, что меньше, чем 11,51 TP3T в начальной контрольной точке. -8.1%.
  • V-IRL (V-IRL-L):
    • RL. Точность на шаг составила 91,8%, что выше, чем 80,8% на начальной контрольной точке. +11.0%.
    • SFT. Точность на шаг составила 1,31 TP3T, что ниже 80,81 TP3T на начальной контрольной точке. -79.5%.

研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力
Рисунок 6: Для каждого подграфа RL и SFT обучаются с одинаковым объемом вычислений, а их общая начальная контрольная точка (обозначена как Init) задается в качестве базовой. Подробные настройки см. в приложении C.3.

2. RL также обобщает результаты в визуальных задачах OOD, в то время как SFT демонстрирует низкие результаты

Заключение:
Даже в задачах, содержащих визуальные модальности, RL все еще способен обобщать на невидимые визуальные варианты, в то время как SFT страдает от снижения производительности.

Пример:
В заданиях GeneralPoints-VI и V-IRL-VL:

  • GeneralPoints-VI (GP-VI):
    • RL. Коэффициент успешности составил 41,21 TP3T, что выше, чем 23,61 TP3T на начальном контрольном пункте. +17.6%.
    • SFT. Коэффициент успешности составил 13,71 TP3T по сравнению с 23,61 TP3T на первой контрольной точке. -9.9%.
  • V-IRL-VL (V-IRL-VL):
    • RL. Точность на шаг составила 77,81 TP3T, что выше 16,71 TP3T на начальной контрольной точке. +61.1%.
    • SFT. Точность на шаг составила 11,11 TP3T по сравнению с 16,71 TP3T на начальной контрольной точке. -5.6%.
研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力

Рисунок 7: Как и на рисунках 5 и 6, мы показываем динамику производительности (показана линиями) и итоговую производительность (показана столбиками), оцененную вне визуального распределения. Оранжевым цветом отмечен предыдущий современный результат в малом эталонном тесте V- IRL VLN (Yang et al., 2024a). Подробную настройку оценки (и сглаживание кривых) см. в приложении C.3.

3. RL улучшает визуальное распознавание ВЛМ

Заключение:
RL не только улучшает вывод модели, но и улучшает ее визуальное распознавание, в то время как SFT уменьшает визуальное распознавание.

Пример:
В задании GeneralPoints-VI:

  • RL. По мере увеличения объема обучающих вычислений повышается как точность визуального распознавания, так и общий коэффициент успешности.
  • SFT. С увеличением объема обучающих вычислений снижается как точность визуального распознавания, так и общий коэффициент успешности.

研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力Рисунок 8: Сравнение скорости распознавания и успешности Reinforcement Learning (RL) и Supervised Fine Tuning (SFT) при различных вариантах GP-VL. На графиках показаны показатели скорости распознавания (ось y) и успешности работы с одним экраном (ось x), соответствующие данным, полученным при распределении (красный цвет) и вне распределения (синий цвет), соответственно. Прозрачность точек данных (цветные полосы) отражает объем обучающих вычислений. Пары данных, соединенные линиями (⋆-◦ ), оцениваются по тем же контрольным точкам. Результаты показывают, что Reinforcement Learning (RL) улучшает как скорость распознавания, так и общую точность по мере увеличения объема посттренировочных вычислений, в то время как Supervised Fine-Tuning (SFT) демонстрирует противоположную тенденцию.

4. SFT необходим для обучения RL

Заключение:
SFT необходим для обучения RL, когда магистральная модель не имеет хорошего следования командам.

Пример:
Все эксперименты, в которых сквозной RL применялся непосредственно к пост-тренировочному Llama-3.2 без инициализации SFT, закончились неудачей.

  • Примеры неудач:
    • Модель генерирует длинные, отвлеченные и неструктурированные ответы, которые не позволяют получить информацию и вознаграждения, связанные с обучением RL.
    • Например, модель пытается решить игру на 24 очка, написав код, но не может завершить генерацию кода, что приводит к ошибке проверки.

研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力
Рисунок 20: Мы записали ответы модели, используя сигналы, аналогичные тем, что показаны на рисунке 11. Результаты показывают, что Llama-3.2-Vision-11B не может правильно следовать инструкциям. Мы пропустили длинные ответы, в которых пытались решить головоломку с помощью кода, но не смогли завершить ее в рамках ограниченной длины контекста.

5. Увеличение числа итераций проверки улучшает обобщающую способность RL

Заключение:
При обучении RL увеличение числа итераций валидации улучшает обобщение модели.

Пример:
В задаче GeneralPoints-Language (GP-L):

  • 1 итерация проверки. Производительность OOD повышается только за счет +0.48%.
  • 3 итерации проверки. Повышается производительность OOD +2.15%.
  • 5 итераций проверки. Повышается производительность OOD +2.99%.
  • 10 итераций проверки. Повышается производительность OOD +5.99%.

研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力
Рисунок 10: Мы записали RL-эксперименты с разным количеством итераций проверки (VIter), чтобы увеличить объем обучающих вычислений (цвет прозрачный).

6. SFT перестраивается на маркеры для вывода и игнорирует маркеры для распознавания

Заключение:
SFT имеет тенденцию к избыточному приспособлению к предполагаемым маркерам и недостаточной ориентации на идентифицированные маркеры, возможно, из-за высокой частоты предполагаемых маркеров.

Пример:
В задаче GeneralPoints-VI SFT не смог достичь сравнимой с RL производительности внутри распределения, даже после корректировки гиперпараметров.

  • Исследование абляции СФТ.
    • После корректировки скорости обучения и других регулируемых компонентов ни один из показателей успешности SFT не превысил 30% и не показал тенденции к увеличению.

研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力
Рисунок 16: Абляционное исследование GeneralPoints-VL SFT. Мы провели эксперименты с абляцией по скорости обучения и представили данные о коэффициенте успешности в пределах распределения, на одном экране (%) для всех экспериментов. Ни в одном из экспериментов коэффициент успешности не превышал 30% и не имел тенденции к увеличению.

7. RL не может восстановить производительность OOD после перебора контрольных точек

Заключение:
При инициализации из контрольной точки с избыточной настройкой RL не смогла восстановить производительность модели OOD.

Пример:
В задании V-IRL-VL:

  • RL Инициализация из контрольных точек с избыточной настройкой:
    • Первоначальная точность на каждом шаге ниже, чем 1%, и RL не может улучшить производительность OOD.

研究表明:RL 在学习可泛化知识方面优于 SFT,尤其在多模态任务中展现出更强的推理与视觉识别能力
Рисунок 19: Одношаговая точность вне распределения (%) - GFLOPs: модель V-IRL-VL при регулярных вариантах (с использованием завышенных начальных контрольных точек). Подробности о метриках оценки см. в Приложении C.3.

 

резюме

С помощью серии экспериментов и анализа в диссертации демонстрируются преимущества RL в обучении обобщающим знаниям и тенденция SFT к запоминанию обучающих данных. В диссертации также подчеркивается важность SFT для обучения RL и положительное влияние увеличения числа итераций валидации на способность RL к обобщению. Эти результаты дают ценные сведения для построения более надежных и достоверных базовых моделей в будущем.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...