Aprendizagem pessoal com IA
e orientação prática

OpenAI-o3 e ideias de Monte-Carlo

A o3 está aqui para compartilhar algumas percepções pessoais. O progresso na Lei de Escala de Tempo de Teste tem sido muito mais rápido do que pensávamos. Mas eu gostaria de dizer que o caminho é, na verdade, um pouco complicado - é a maneira da OpenAI de salvar o país da curva em sua busca pela AGI.

Aprendizado intensivo e pensamento de atalho

Por que isso acontece? Vamos explorar isso por meio de dois exemplos.

O primeiro exemplo vem do aprendizado por reforço. Na RL, o fator de desconto desempenha um papel fundamental, o que implica que a recompensa obtida diminuirá gradualmente à medida que as etapas da tomada de decisão avançarem. Portanto, o objetivo do aprendizado por reforço geralmente é maximizar as recompensas no menor tempo possível e no menor número possível de etapas. No centro dessa estratégia, a ênfase está nos "atalhos", ou seja, obter a recompensa o mais rápido possível.


O segundo exemplo é o processo de ajuste fino de modelos grandes. Um modelo pré-treinado que não tenha sido ajustado geralmente não tem direção ou controle claros. Quando perguntamos ao modelo "Onde fica a capital da China?" ele pode primeiro dizer "Essa é uma boa pergunta" e depois sair pela tangente antes de finalmente dar a resposta "Pequim". Entretanto, quando a mesma pergunta é feita a um modelo ajustado, a resposta é direta e clara: "Pequim".

Esse modelo ajustado demonstra uma maneira de obter atalhos por meio de uma estratégia de otimização - semelhante à jornada evolutiva dos seres humanos - sempre buscando o menor consumo de energia e o caminho mais curto.

Por que raciocinar?

Se você visualizar o processo de amostragem do Reasoning como uma árvore:

OpenAI-o3 com ideias de Monte-Carlo-1

Jornada de replicação do O1: Parte 1

 

À esquerda está o aprendizado por atalhos que buscamos no passado: o menor número de etapas para chegar ao resultado correto. À direita está o paradigma "reflexivo e retrospectivo" representado pela OpenAI o1.

Sabemos que, à medida que a o1 realiza uma pesquisa, o modelo está constantemente refletindo e retrocedendo, e esse processo geralmente é acompanhado por despesas gerais adicionais. O problema é que quem quer gastar tempo e dinheiro em uma pesquisa complexa se o modelo pode realmente dar a resposta certa várias vezes? A OpenAI não é burra, e todos sabemos que os atalhos são melhores!

Quanto mais difícil for o problema, maior será a árvore de ideias em potencial, maior será o espaço de pesquisa em cada etapa e menor será a probabilidade de um atalho levar à resposta certa. Então, o que fazer? Uma maneira intuitiva de pensar sobre isso é optar pela poda! Cortar os nós da árvore que provavelmente não chegarão ao ponto final antes do tempo, comprimindo o espaço de pesquisa e transformando a árvore em uma árvore estreita. É isso que muitos esforços atuais estão tentando fazer, por exemplo:

OpenAI-o3 com ideias de Monte-Carlo-1

Otimização da cadeia de preferências (CPO)

 

A otimização da cadeia de preferências consiste em construir naturalmente dados de preferências a partir da árvore de raciocínio e, em seguida, usar o DPO para otimizá-los, de modo que o modelo tenha uma probabilidade maior de selecionar o nó da árvore que alcançará o ponto final.

OpenAI-o3 com ideias de Monte-Carlo-1

Modelos de valor supervisionados por resultados (OVM)

 

Os modelos de valor supervisionados por resultados são a modelagem do raciocínio como um processo MDP, em que a probabilidade de chegar à resposta correta na etapa atual (valor) é usada para orientar a otimização da estratégia.

Por que a OpenAI optou por abandonar os atalhos tradicionais?

Voltando à o1, por que você optou por quebrar a ideia do atalho tradicional e optar pelo "desvio" da Tree Search?

Se, no passado, tendíamos a explorar os recursos básicos dos modelos (Exploit), seria de se supor que os modelos GPT-4 existentes fossem capazes de satisfazer a maioria das necessidades de diálogo e raciocínio simples. E essas tarefas podem ser bem amostradas, as preferências avaliadas e otimizadas iterativamente.

No entanto, essa perspectiva ignora a necessidade de tarefas mais complexas, como raciocínio matemático (AIME, Frontier Math), geração de código (SWE-Bench, CodeForce) etc., que geralmente são difíceis de recompensar em curto prazo. -Suas recompensas são muito esparsas, e as recompensas só se tornam aparentes quando a resposta correta é finalmente alcançada.

Consequentemente, o aprendizado tradicional por atalhos não é mais adequado para lidar com esse tipo de tarefa complexa: como é possível falar em otimizar a probabilidade de o modelo escolher o caminho correto quando não é possível nem mesmo obter uma amostra do caminho correto?

Voltando à "ideia de Monte-Carlo" no título deste artigo, podemos ver que, na verdade, é a mesma coisa: o núcleo da abordagem de Monte-Carlo para o aprendizado por reforço está em estimar o valor de uma política por meio de amostragem várias vezes e, assim, otimizar o modelo. No entanto, essa abordagem tem uma limitação natural: se as políticas amostradas não puderem amostrar os caminhos ideais, a otimização do modelo sempre terminará com um ótimo local. É por isso que optamos por estratégias mais exploratórias no MC Learning.

Assim, a OpenAI optou por quebrar as escalas do aprendizado por reforço, afastando-se da mentalidade tradicional de atalhos em favor da exploração de reforço (Explore).

o1 Inovações: da exploração à otimização

Nesse contexto, a OpenAI propôs o paradigma o1. Essa mudança permite que o modelo comece a receber recompensas esparsas gradualmente ao enfrentar tarefas complexas! E, por meio dessas recompensas, a estratégia pode ser continuamente otimizada. Embora esse processo de exploração possa parecer incômodo e ineficiente, ele estabelece a base para uma maior otimização do modelo.

Então, de onde veio o o1? Muitos trabalhos sobre a replicação da o1 também apareceram recentemente. O que eles estão fazendo? Se a política comportamental usada para a exploração for a abordagem On-Policy, ela é uma amostragem com o modelo atual (por exemplo, GPT-4o), que ainda é muito ineficiente.

Assim, os rapazes escolheram por unanimidade o método Off-Policy:

A OpenAI gasta muito dinheiro para contratar estudantes de doutorado para fazer anotações nos dados do Long CoT; não há dinheiro? O que podemos fazer se não tivermos dinheiro? Então, podemos colaborar com humanos e máquinas para anotar os dados (destilar manualmente o1) e reduzir os requisitos para os anotadores; Não temos dinheiro nem para encontrar anotadores? Então temos que destilar R1 / QwQ ou pensar em outras maneiras (crítica, PRM etc.). Também gostaria de lembrar aos grandes fabricantes e laboratórios que estão reproduzindo ativamente o o1 que não se esqueçam de que o objetivo final da exploração ainda é a otimização!

Como observação lateral, embora todos estejam criticando a o1 por ocultar a verdadeira cadeia de raciocínio e mostrar apenas uma versão resumida do Resumo, não está claro que o Resumo seja o dado principal da estratégia de otimização. O Resumo é o dado principal para otimizar a estratégia! Mas a OpenAI não tem medo de que outros destilem esses resumos, porque há outro pré-requisito para destilar esses dados - o modelo subjacente é forte o suficiente, caso contrário, é fácil dar um passo muito grande e se prejudicar.
E a OpenAI também transfere o custo da exploração para o usuário. Embora custe muito dinheiro anotar dados exploratórios no estágio inicial, agora, com a o1, o processo de uso do usuário invariavelmente anotará mais dados para o usuário. A openAI conseguiu mais uma vez o grande volante de dados!

Evolução rápida de o1 para o3

O o1 acabou de ser lançado há alguns meses e agora vem o o3.

Na verdade, isso contorna a conjectura anterior: se o GPT-4 representa uma progressão de 0 a 1 - ou seja, de tarefas simples para obter recompensas - então o1 representa um salto de 1 a 10 - explorando tarefas complexas e obtendo recompensas raras. recompensas raras, fornecendo uma quantidade sem precedentes de dados de alta qualidade para otimização adicional da estratégia.

Portanto, o progresso foi mais rápido do que se esperava:

OpenAI-o3 com ideias de Monte-Carlo-1

Essa não é apenas uma aplicação bem-sucedida da estratégia de exploração, mas também uma etapa importante da tecnologia de IA em direção à AGI.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OpenAI-o3 e ideias de Monte-Carlo

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil