Demonstra-se que: a RL supera a SFT no aprendizado de conhecimentos generalizáveis, especialmente em tarefas multimodais, mostrando habilidades mais fortes de raciocínio e reconhecimento visual

Notícias sobre IAPublicado há 6 meses Círculo de compartilhamento de IA

1.3K 00

breve

No campo da inteligência artificial.modelo básico(por exemplo, modelos de linguagem em larga escala e modelos de linguagem visual) se tornaram uma força central que impulsiona o progresso tecnológico. No entanto, como aprimorar efetivamente a capacidade desses modelos?capacidade de generalizaçãoO desafio de se adaptar à complexidade e à variabilidade dos cenários da vida real continua sendo um dos principais. Atualmente.Ajuste fino supervisionado (SFT) e aprendizado por reforço (RL)são dois métodos pós-treinamento amplamente adotados, mas suas funções e efeitos específicos no aprimoramento da capacidade de generalização dos modelos ainda não estão claros.

Essa tese é apoiada por umEstudo comparativo aprofundadoEm nosso estudo, exploramos sistematicamente o impacto da SFT e da RL sobre os recursos de generalização do modelo subjacente. Nosso foco está nos dois aspectos principais a seguir:

Generalização baseada em regras textuais: Projetamos um sistema chamado Pontos gerais de um jogo de cartas de raciocínio aritmético que avalia o desempenho do modelo sob diferentes variantes de regras.
Generalização visual: Usamos o V-IRL um ambiente de navegação baseado em entrada visual do mundo real, para testar a capacidade do modelo de se adaptar às mudanças na entrada visual.

Por meio de uma série deExperimentação e análise rigorosasChegamos às seguintes conclusões importantes:

A RL supera a SFT na generalização visual e de regras: A RL é capaz de aprender e aplicar novas regras de forma eficiente, mantendo um bom desempenho na presença de variações de entrada visual. Em contrapartida, a SFT tende a memorizar os dados de treinamento e tem dificuldade de se adaptar a variantes não vistas.
A RL aprimora o reconhecimento visual: Na modelagem de linguagem visual (VLM), a RL não apenas melhora o raciocínio, mas também aprimora o reconhecimento visual, enquanto a SFT reduz o reconhecimento visual.
O SFT é fundamental para o treinamento de RL: O SFT é um fator essencial para o sucesso do treinamento de RL quando o modelo de backbone não tem boa capacidade de seguir instruções. Ele estabiliza o formato de saída do modelo para que a RL possa aproveitar ao máximo seu desempenho.
A expansão do número de iterações de verificação melhora a generalização da RL: No treinamento de RL, o aumento do número de iterações de validação pode melhorar ainda mais a generalização do modelo.

Essas descobertasFornece percepções valiosas para futuras pesquisas e aplicações de IANeste estudo, foi demonstrado que a RL tem mais potencial em tarefas multimodais complexas. Nosso estudo não apenas revela as diferentes funções da SFT e da RL, mas também fornece novas ideias sobre como combinar essas duas abordagens de forma mais eficaz para criar modelos subjacentes mais avançados e confiáveis.

Se você é um pesquisador de IA, um engenheiro ou um leitor interessado no futuro da IA, este documento fornecerá insights e orientações práticas. Vamos nos aprofundar nos mistérios da SFT e da RL para revelar o caminho crítico para a generalização do modelo subjacente.

Texto original:https://tianzhechu.com/SFTvsRL/assets/sftvsrl_paper.pdf

leitura rápida

1. A RL supera a SFT na generalização de regras

Conclusão:
A RL é capaz de aprender e generalizar regras baseadas em texto com eficiência, enquanto a SFT tende a memorizar dados de treinamento e tem dificuldade de se adaptar a variantes de regras não vistas.

Exemplo:
A RL supera a SFT no desempenho fora de distribuição (OOD) nas tarefas GeneralPoints e V-IRL.

GeneralPoints (GP-L):
- RL. A taxa de sucesso foi de 15,01 TP3T, o que representa um aumento em relação aos 11,51 TP3T no ponto de controle inicial. +3.5%.
- SFT. A taxa de sucesso foi de 3,41 TP3T, uma redução em relação aos 11,51 TP3T no ponto de controle inicial. -8.1%.
V-IRL (V-IRL-L):
- RL. A precisão por etapa foi de 91,8%, uma melhoria em relação aos 80,8% no ponto de verificação inicial +11.0%.
- SFT. A precisão por etapa foi de 1,31 TP3T, abaixo dos 80,81 TP3T no ponto de controle inicial -79.5%.

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
Figura 6: Para cada subgráfico, a RL e a SFT são treinadas usando a mesma quantidade de computação, e seu ponto de verificação inicial compartilhado (rotulado como Init) é definido como linha de base. Consulte o Apêndice C.3 para ver as configurações detalhadas.

2. A RL também é generalizada em tarefas de OOD visual, enquanto a SFT tem um desempenho ruim

Conclusão:
Mesmo em tarefas que contêm modalidades visuais, a RL ainda é capaz de generalizar para variantes visuais não vistas, enquanto a SFT sofre degradação do desempenho.

Exemplo:
Nas tarefas GeneralPoints-VI e V-IRL-VL:

GeneralPoints-VI (GP-VI):
- RL. A taxa de sucesso foi de 41,21 TP3T, um aumento em relação aos 23,61 TP3T no ponto de controle inicial +17.6%.
- SFT. A taxa de sucesso foi de 13,71 TP3T, abaixo dos 23,61 TP3T no ponto de controle inicial. -9.9%.
V-IRL-VL (V-IRL-VL):
- RL. A precisão por etapa foi de 77,81 TP3T, uma melhoria em relação aos 16,71 TP3T no ponto de verificação inicial +61.1%.
- SFT. A precisão por etapa foi de 11,11 TP3T, abaixo dos 16,71 TP3T no ponto de controle inicial -5.6%.

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力

Figura 7: Semelhante às Figuras 5 e 6, mostramos a dinâmica de desempenho (mostrada como linhas) e o desempenho final (mostrado como barras) avaliados fora da distribuição visual. O estado da arte anterior no teste de referência pequeno V- IRL VLN (Yang et al., 2024a) está marcado em laranja. Consulte o Apêndice C.3 para obter a configuração detalhada da avaliação (e suavização de curva).

3. A RL aprimora o reconhecimento visual de VLMs

Conclusão:
A RL não apenas melhora a inferência do modelo, mas também aprimora seu reconhecimento visual, enquanto a SFT reduz o reconhecimento visual.

Exemplo:
Na tarefa GeneralPoints-VI:

RL. À medida que a quantidade de computação de treinamento aumenta, tanto a precisão do reconhecimento visual quanto a taxa de sucesso geral melhoram.
SFT. À medida que a quantidade de computação de treinamento aumenta, tanto a precisão do reconhecimento visual quanto a taxa de sucesso geral diminuem.

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力 Figura 8: Comparação da taxa de reconhecimento e da taxa de sucesso do Reinforcement Learning (RL) e do Supervised Fine Tuning (SFT) em diferentes variantes do GP-VL. Os gráficos mostram o desempenho da taxa de reconhecimento (eixo y) e a taxa de sucesso em tela única (eixo x), correspondente aos dados dentro da distribuição (vermelho) e fora da distribuição (azul), respectivamente. A transparência dos pontos de dados (barras coloridas) representa a quantidade de cálculos de treinamento. Os pares de dados conectados por linhas (⋆-◦ ) são avaliados usando os mesmos pontos de controle. Os resultados mostram que o aprendizado por reforço (RL) melhora a taxa de reconhecimento e a precisão geral à medida que a quantidade de computação pós-treinamento aumenta, enquanto o ajuste fino supervisionado (SFT) mostra a tendência oposta.

4. O SFT é necessário para o treinamento de RL

Conclusão:
O SFT é necessário para o treinamento de RL quando o modelo de backbone não tem um bom acompanhamento de comando.

Exemplo:
Todos os experimentos em que a RL de ponta a ponta foi aplicada diretamente ao Llama-3.2 pós-treinamento sem a inicialização do SFT terminaram em fracasso.

Estudos de casos de falhas:
- O modelo gera respostas longas, digressivas e não estruturadas que não conseguem recuperar informações e recompensas associadas ao treinamento de RL.
- Por exemplo, o modelo tenta resolver o jogo de 24 pontos escrevendo código, mas não consegue concluir a geração do código, o que resulta em uma falha de validação.

Figura 20: Registramos as respostas do modelo usando dicas semelhantes às mostradas na Figura 11. Os resultados mostram que a Llama-3.2-Vision-11B não consegue seguir as instruções corretamente. Omitimos respostas longas que tentavam resolver o quebra-cabeça por meio de código, mas que não foram concluídas dentro da duração limitada do contexto.

5. A expansão do número de iterações de validação melhora a capacidade de generalização da RL

Conclusão:
No treinamento de RL, o aumento do número de iterações de validação melhora a generalização do modelo.

Exemplo:
Na tarefa de linguagem de pontos gerais (GP-L):

1 iteração de validação. O desempenho do OOD é aprimorado apenas por +0.48%.
3 iterações de validação. O desempenho do OOD é aprimorado +2.15%.
5 iterações de validação. O desempenho do OOD é aprimorado +2.99%.
10 iterações de validação. O desempenho do OOD é aprimorado +5.99%.

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
Figura 10: Registramos experimentos de RL com números variados de iterações de validação (VIter) como uma forma de aumentar a quantidade de cálculos de treinamento (transparência de cores).

6. SFT com ajuste excessivo aos marcadores de inferência e ignorando os marcadores de reconhecimento

Conclusão:
A SFT tende a se ajustar excessivamente aos marcadores inferidos e a se concentrar menos nos marcadores identificados, possivelmente devido à alta frequência dos marcadores inferidos.

Exemplo:
Na tarefa GeneralPoints-VI, a SFT não conseguiu obter um desempenho de intra-distribuição comparável ao da RL, mesmo depois de ajustar os hiperparâmetros.

Estudo de ablação de SFT.
- Após o ajuste da taxa de aprendizado e de outros componentes ajustáveis, nenhuma das taxas de sucesso do SFT excedeu 30% e não apresentou tendência de aumento.

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
Figura 16: Estudo de ablação do GeneralPoints-VL SFT. Realizamos experimentos de ablação na taxa de aprendizado e relatamos a taxa de sucesso de tela única dentro da distribuição (%) para todos os experimentos. Nenhum dos experimentos teve taxas de sucesso acima de 30% e não apresentaram tendência de aumento.

7. A RL não pode recuperar o desempenho do OOD de pontos de verificação com ajuste excessivo

Conclusão:
Quando inicializada a partir de um ponto de verificação com ajuste excessivo, a RL não conseguiu recuperar o desempenho de OOD do modelo.

Exemplo:
Na tarefa V-IRL-VL:

Inicialização de RL a partir de pontos de verificação superajustados: o
- A precisão inicial por etapa é menor que a do 1% e a RL não pode melhorar o desempenho do OOD.

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
Figura 19: Precisão de etapa única fora da distribuição (%) - GFLOPs: modelo V-IRL-VL sob variantes regulares (usando pontos de verificação iniciais superajustados). Consulte o Apêndice C.3 para obter detalhes sobre as métricas de avaliação.

resumos

Por meio de uma série de experimentos e análises, esta tese demonstra as vantagens da RL no aprendizado de conhecimentos generalizáveis e a tendência do SFT de favorecer a memorização dos dados de treinamento. A tese também destaca a importância do SFT para o treinamento de RL e o impacto positivo da expansão do número de iterações de validação sobre a capacidade de generalização da RL. Essas descobertas fornecem percepções valiosas para a criação de modelos de base mais robustos e confiáveis no futuro.

Notícias sobre IA

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

a kimi lança a versão visual do o1 para pensar e resolver problemas visualmente

Notícias sobre IA

8 meses atrás

01.6K

Problemas desafiadores em nível de olimpíada: uma análise dos 7 principais benchmarks de desempenho em matemática do LLM chinês

Notícias sobre IA

4 meses atrás

0910

LangChain 发布 LangMem SDK，赋能 AI Agent 长期记忆能力

LangChain lança o LangMem SDK para habilitar os recursos de memória de longo prazo do agente de IA

Notícias sobre IA

6 meses atrás

01.3K

Gerador de instruções Jina AI Meta-prompt Gerador de instruções Jina AI Meta-prompt

Notícias sobre IA

9 meses atrás

02K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Demonstra-se que: a RL supera a SFT no aprendizado de conhecimentos generalizáveis, especialmente em tarefas multimodais, mostrando habilidades mais fortes de raciocínio e reconhecimento visual

breve

leitura rápida

1. A RL supera a SFT na generalização de regras

2. A RL também é generalizada em tarefas de OOD visual, enquanto a SFT tem um desempenho ruim

3. A RL aprimora o reconhecimento visual de VLMs

4. O SFT é necessário para o treinamento de RL

5. A expansão do número de iterações de validação melhora a capacidade de generalização da RL

6. SFT com ajuste excessivo aos marcadores de inferência e ignorando os marcadores de reconhecimento

7. A RL não pode recuperar o desempenho do OOD de pontos de verificação com ajuste excessivo

resumos

o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

A OpenAI lança o DeepResearch, inteligência para pesquisa profunda usando modelos o3

Artigos relacionados

a kimi lança a versão visual do o1 para pensar e resolver problemas visualmente

Problemas desafiadores em nível de olimpíada: uma análise dos 7 principais benchmarks de desempenho em matemática do LLM chinês

LangChain lança o LangMem SDK para habilitar os recursos de memória de longo prazo do agente de IA

Gerador de instruções Jina AI Meta-prompt Gerador de instruções Jina AI Meta-prompt

Sem comentários

Últimas coleções

Artigos mais recentes

Demonstra-se que: a RL supera a SFT no aprendizado de conhecimentos generalizáveis, especialmente em tarefas multimodais, mostrando habilidades mais fortes de raciocínio e reconhecimento visual

breve

leitura rápida

1. A RL supera a SFT na generalização de regras

2. A RL também é generalizada em tarefas de OOD visual, enquanto a SFT tem um desempenho ruim

3. A RL aprimora o reconhecimento visual de VLMs

4. O SFT é necessário para o treinamento de RL

5. A expansão do número de iterações de validação melhora a capacidade de generalização da RL

6. SFT com ajuste excessivo aos marcadores de inferência e ignorando os marcadores de reconhecimento

7. A RL não pode recuperar o desempenho do OOD de pontos de verificação com ajuste excessivo

resumos

o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

A OpenAI lança o DeepResearch, inteligência para pesquisa profunda usando modelos o3

Artigos relacionados

a kimi lança a versão visual do o1 para pensar e resolver problemas visualmente

Problemas desafiadores em nível de olimpíada: uma análise dos 7 principais benchmarks de desempenho em matemática do LLM chinês

LangChain lança o LangMem SDK para habilitar os recursos de memória de longo prazo do agente de IA

Gerador de instruções Jina AI Meta-prompt Gerador de instruções Jina AI Meta-prompt

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes