isto é estrelas saltadoras O primeiro modelo de inferência da família de modelos Step.
Os modelos de inferência do tipo OpenAI o1 estão finalmente sendo implementados no país.
Agora mesmo, a Step Star, membro da "Six Little Tigers", lançou o modelo de última geração: Step Reasoner mini ("Step R-mini"). Esse é o primeiro modelo de inferência da família de modelos da série Step.
O novo modelo é excelente em planejamento proativo, experimentação e reflexão, e é capaz de fornecer respostas precisas e confiáveis aos usuários por meio do mecanismo de pensamento lento e validação iterativa da lógica.
Além disso, ela se destaca na solução de problemas complexos, como raciocínio lógico, códigos e matemática, por meio de sua capacidade de raciocínio extralongo, bem como em campos de uso geral, como a criação literária. Ou "tanto literatura quanto ciência", de acordo com as próprias palavras da Order Leaping Star.
De acordo com os dados de benchmark publicados pela Step Star, o Step R-mini atinge o SOTA nos benchmarks de matemática AIME 2024 e Math500, com o Math500 marcando 2 pontos a mais do que o o1-mini. O Step Reasoner mini também escreve código muito bem: ele supera o o1-mini no LiveCodeBench Ele supera o o1-preview em tarefas de código.
Como tudo isso funciona? O coração da máquina aprendeu com as pessoas relacionadas à Etapa Estrela que o novo modelo tem um alto conteúdo de "RL", portanto, a generalização é melhor. Além disso, eles também foram escalonados em muitos aspectos, como qualidade dos dados, computação no momento do teste, tamanho do modelo etc., o que mais uma vez verificou a validade da Lei de Escalonamento.
Além do modelo de raciocínio verbal, eles também estão criando um modelo de raciocínio visual que é capaz de raciocinar multimodalmente. Além disso, a fonte enfatizou que esse modelo de raciocínio multimodal "está realmente raciocinando no domínio visual", ou seja, raciocinando em diagramas, "não apenas olhando para diagramas, mas raciocinando apenas no domínio textual".
Parece que o Order Leaping Star deu mais um passo à frente em seu roteiro.
Como o Step Reasoner mini é fabricado?
De acordo com a Etapa R-mini, o projeto e o desenvolvimento da Etapa R-mini seguem o paradigma atual do desenvolvimento de modelos de raciocínio. Especificamente, ele alcança o "pensamento lento" ao aumentar a quantidade de computação na fase de raciocínio e incorporar técnicas como o encadeamento de pensamentos. O sistema é capaz de planejamento proativo, experimentação e reflexão com base na complexidade da tarefa, fornecendo, assim, feedback preciso e confiável por meio de um mecanismo lógico validado iterativamente.
De acordo com a Step Reasoner, um dos maiores destaques do Step Reasoner mini é a realização de "literatura e ciência". Especificamente, além de responder com precisão a perguntas de matemática, código e raciocínio lógico, o Step Reasoner mini também pode realizar criativamente a criação de conteúdo literário e tarefas diárias de bate-papo. Isso é obtido por meio de treinamento de aprendizagem por reforço em larga escala usando algoritmos de aprendizagem por reforço On-Policy.
Além disso, o aprimoramento da capacidade de raciocínio de modelos não pode ser separado da adesão da Step Star aos princípios da Lei de Escalonamento. Isso inclui os seguintes pontos:
- Aprendizado por Reforço em Escala: do aprendizado por imitação ao aprendizado por reforço, da preferência humana ao feedback ambiental, a StepStar adere ao Treinamento por Reforço em Escala, com o aprendizado por reforço como a fase principal de treinamento da iteração do modelo.
- Dimensionamento da qualidade dos dados: a qualidade dos dados é a principal prioridade. Sob a premissa de garantir a qualidade dos dados, a StepStar continua a expandir a distribuição e a escala dos dados para fornecer uma garantia sólida para o treinamento de aprendizagem por reforço.
- Escalonamento da computação em tempo de teste: implementando firmemente o escalonamento em tempo de treinamento junto com o escalonamento em tempo de teste, a Step Star descobriu que o paradigma do Sistema 2 permite que o Step Reasoner mini atinja 50.000 tokens de pensamento em um raciocínio de tarefa muito complexo. O Step Star descobriu que o paradigma do Sistema 2 permite que o Step Reasoner mini alcance 50.000 tokens de pensamento em tarefas muito complexas, possibilitando um pensamento mais profundo.
- Dimensionamento do tamanho do modelo: Essa é a forma mais clássica de dimensionamento. De acordo com o Step Star, insistir no dimensionamento do tamanho do modelo ainda é o núcleo do System-2, e já estamos desenvolvendo um modelo de inferência do Step Reasoner mais inteligente, versátil e abrangente.
Como funciona um teste em primeira mão no mundo real?
Como o Step Reasoner mini afirma ser "alfabetizado", vamos começar testando-o com uma pergunta alfabetizada: Em "Dreaming of Travelling to Tianmu Yinliu Farewell", em qual linha há um número e seu múltiplo na mesma frase? Não é uma pergunta difícil, mas exige que a IA se lembre e compreenda o poema, além de aritmética básica. Embora muitas pessoas pensem que a resposta deveria ser "The rooftop is 48,000 feet high, and it is about to fall to the south-east" (O telhado tem 48.000 pés de altura e está prestes a cair para o sudeste), a resposta é, na verdade, "48.000 pés de altura". Mas 48.000 é um número separado, e não há múltiplos dele nessa frase, portanto, não conta. O Step Reasoner mini também confirmou isso em seu raciocínio e finalmente encontrou a resposta correta: "O caminho de mil pedras e dez mil curvas é incerto".
Aqui está uma olhada em uma questão de matemática do GCSE de 2024:
Como pode ser visto, o Step Reasoner mini executa uma rodada de raciocínio para obter a resposta correta. Também é possível ver que o modelo executa mais duas rodadas de raciocínio após a primeira rodada de raciocínio para verificar a exatidão da resposta. Em testes reais, descobrimos que, se as respostas da primeira e da segunda rodadas não coincidissem, o Step Reasoner mini continuaria a executar várias rodadas de raciocínio até obter a resposta correta.
A seguir, uma pergunta de raciocínio lógico:
Como você pode ver, o Step Reasoner mini organiza sistematicamente as relações entre várias pessoas na pergunta e apresenta a resposta final de forma muito clara.
E quanto às tarefas simples de "artes liberais"? Por exemplo, se o modelo for solicitado a traduzir "I'm not in danger, I'm the danger." (Eu não estou em perigo, eu sou o perigo), o que ele faria? Acontece que o Step Reasoner mini, depois de muitas tentativas, acabou encontrando uma tradução um tanto arrogante: "I'm not in danger, I'm the danger." O que é ainda mais interessante é que, no processo de pensar sobre isso, ele também fez referência a uma frase semelhante do filme O Cavaleiro das Trevas.
Além disso, sabemos que a Xiaohongshu recebeu recentemente um fluxo de usuários estrangeiros, e uma de suas principais necessidades é criar nomes em chinês. "O Step Reasoner mini pode ajudá-los?
Como você pode ver, para perguntas em inglês, o Step Reasoner mini pode alternar suavemente para o modo de raciocínio em inglês, sem deixar de intercalar pensamentos sobre os significados em chinês. Quanto ao nome "Starry" (estrelado) que ele finalmente recebeu, ainda me sinto bem.
Egg: modelos de raciocínio visual também estão a caminho
A partir do anúncio de hoje, além do modelo de raciocínio verbal, a Step Star também lançou um pequeno ovo: ela está criando um modelo de raciocínio visual para integrar a capacidade de raciocínio em um modelo maior com formas mais interativas.
Para o problema de raciocínio em cenas visuais complexas, a Step Star introduz a percepção lenta e araciocínio espacialA ideia é transferir a escala de tempo de teste do espaço textual para o espaço visual e realizar o Spatial-Slow-Thinking no espaço visual.
Qual é a sua eficácia? Veja a tela:
1. responda às perguntas da figura
2) Qual deles posso alcançar a partir da seta azul?
3) Quais são os números correspondentes a cada uma dessas bolas?