Eu não sabia que a tecnologia estava se desenvolvendo tão rapidamente. Recentemente, as pessoas já estão imaginando a vida após a era da IA.
No fim de semana, o CEO do JPMorgan Chase, Jamie Dimon, disse que, graças à tecnologia de IA, as gerações futuras poderiam trabalhar apenas três dias e meio por semana e viver até os 100 anos.
Algumas pesquisas sugerem que tecnologias como a IA generativa poderiam automatizar tarefas que atualmente ocupam 60-70% do tempo de trabalho das pessoas. De onde virá a tecnologia necessária para essas mudanças? Tem que ser uma IA revolucionária, e alguém compilou uma lista de previsões de vários figurões da IA sobre quando surgirá a inteligência artificial geral (AGI). Hassabis, da DeepMind, por exemplo, acha que estamos a duas ou três grandes inovações tecnológicas do surgimento da AGI.
Como o CEO da OpenAI, Sam Altman, que até acha que a AGI chegará no próximo ano. Pensando nisso.O motivo dessa confiança pode estar no fato de que as pessoas recentemente fizeram os grandes modelos aprenderem a "raciocinar.
Em setembro, a OpenAI tornou público oficialmente o grande modelo sem precedentes de raciocínio complexo, o1, um grande avanço, pois o novo modelo tem recursos de uso geral e a capacidade de resolver problemas mais difíceis do que os modelos científicos, de código e matemáticos anteriores. Os resultados experimentais mostram que o o1 supera significativamente o GPT-4o na grande maioria das tarefas de raciocínio.
A OpenAI abriu uma nova direção para a capacidade dos grandes modelos: "se eles conseguem pensar e raciocinar como um ser humano" tornou-se um indicador importante para avaliar sua capacidade. Se os novos modelos lançados pelos fornecedores não tiverem alguma cadeia de pensamento, receio que eles ficarão com vergonha de mostrá-los.
Até agora, no entanto, a versão oficial do o1 ainda está atrasada. A comunidade de IA, especialmente as grandes empresas de modelos na China, está causando impacto na supremacia do o1 e está começando a assumir a liderança em algumas análises confiáveis.
Hoje.O primeiro modelo o1 da China com capacidade de raciocínio lógico chinês está aqui, é a versão o1 "Skywork 4.0" (nome em inglês: Skywork o1) lançada pela Kunlun MSI.. Essa é a terceira grande ação da empresa em modelos grandes e aplicativos relacionados no último mês, após aPesquisa avançada de IA da SkyworkseDiálogo de voz em tempo real Assistente de IA Skyo Aparições sequenciais.
A partir de agora, a Skywork o1 abrirá o teste interno. Se você quiser participar, inscreva-se agora.
Inscreva-se em www.tiangong.cn
Três modelos lado a lado
Um novo campo de batalha para o raciocínio
Desta vez, o Skywork o1 inclui os três modelos a seguir, tanto uma versão aberta para retribuir à comunidade de código aberto quanto uma versão dedicada mais capaz.
Entre outras coisas, a versão de código aberto do Skywork o1 Aberto Ao mesmo tempo, o Skywork o1 Open desbloqueia tarefas de inferência matemática (por exemplo, computação de 24 pontos) que não são possíveis com modelos de maior escala, como o GPT-4o. Isso também abre a possibilidade de implantar modelos de inferência em dispositivos leves.
Além disso, a Kunlun também abrirá o código-fonte de dois Process-Reward-Models (PRMs) para tarefas de raciocínio, que são Skywork o1 Open-PRM-1.5B responder cantando Skywork o1 Open-PRM-7BO Skywork-Reward-Model, anteriormente de código aberto, pontua apenas a resposta completa do modelo. Enquanto o Skywork-Reward-Model de código aberto anterior pontua apenas a resposta completa do modelo, o Skywork o1 Open-PRM pode ser refinado para pontuar cada etapa da resposta do modelo.
Em comparação com os PRMs existentes na comunidade de código aberto, o Skywork o1 Open-PRM-1.5B pode alcançar resultados de modelos de 8B, como o Llama3.1-8B-PRM-Deepseek-Data do RLHFlow e o Math-psa-7B do OpenR. se aproximar ou até mesmo superar o Qwen2.5-Math-RM-72B por um fator de 10 na maioria dos benchmarks.
É relatado queO Skywork o1 Open-PRM também é o primeiro PRM de código aberto para tarefas baseadas em código.. A tabela a seguir mostra os resultados da avaliação usando o Skywork-o1-Open-8B como modelo básico, usando diferentes PRMs nos conjuntos Maths e Code Review.
Observação: com exceção do Skywork-o1-Open-PRM, outros PRMs de código aberto não são otimizados especificamente para tarefas baseadas em código, portanto, nenhuma comparação é feita para tarefas baseadas em código.
Um relatório técnico detalhado também será publicado em breve. O modelo e a apresentação associada são atualmente de código aberto no Huggingface.
Endereço de código aberto: https://tinyurl.com/skywork-o1
Skywork o1 Lite Com a capacidade de pensar de maneira completa e atingir uma velocidade mais rápida de raciocínio e pensamento, ele ou ela é particularmente bom em problemas de lógica e raciocínio chineses, matemática e assim por diante.Visualização do Skywork o1 Esta é a versão completa do modelo de raciocínio, com algoritmos de raciocínio on-line desenvolvidos pelo próprio usuário, que, em comparação com a versão Lite, pode apresentar um processo de raciocínio mais diversificado e profundo, para obter um raciocínio mais completo e de maior qualidade.
Você pode se perguntar o que torna o Skywork o1 diferente do trabalho atual de reprodução de modelos o1, que funcionam todos no nível de inferência.
Kunlun disse que a série de modelos endogeneiza a capacidade de pensar, planejar e refletir sobre o resultado do modelo, raciocinando, refletindo e verificando passo a passo no pensamento lento, desbloqueando versões avançadas típicas de habilidades complexas de pensamento humano, como o "pensamento profundo", e garantindo a qualidade e a profundidade das respostas.
É claro que teremos que ver como o Skywork o1 se sai em campo.
experiência em primeira mão
Dessa vez, a Skywork o1 acertou em cheio no raciocínio.
Obtive a qualificação de teste com antecedência e examinei todos os aspectos da capacidade de raciocínio dos modelos da série Skywork o1, especialmente as versões Lite e Preview. A figura a seguir mostra a interface do Skywork o1 Lite.
Começamos deixando o Skywork o1 Lite se apresentar, e podemos ver que o modelo não fornece a resposta diretamente, mas simVisualize para o usuário o processo completo de raciocínio, incluindo orientação para problemas, perfil de autocompetência, etc.e iráMostrar tempo de reflexãoque é uma característica distintiva dos modelos de raciocínio atuais.
Passando para o teste oficial, examinamos vários tipos de perguntas de raciocínio para ver se realmente conseguíamos entender o Skywork o1.
Compare tamanhos, conte problemas de "r" e não faça mais piruetas!
Anteriormente, os modelos grandes frequentemente fracassavam quando se deparavam com alguns problemas aparentemente simples de comparação de tamanhos e contagem. Agora, esses problemas não são mais um problema para o Skywork o1 Lite.
Ao comparar se 13,8 é maior do que 13,11, o Skywork o1 Lite apresenta uma cadeia completa de raciocínio para descobrir que a chave para resolver o problema está no tamanho das casas decimais. O modelo também reflete sobre si mesmo, verificando novamente as conclusões a que chegou e lembrando os pontos fáceis de responder incorretamente.
Da mesma forma, ao responder corretamente à pergunta "How many "r "s are in Strawberry?" (Quantos "r "s existem em Strawberry?) O Skywork o1 Lite também é a cadeia completa de pensamento, verificação e confirmação quando se trata de responder corretamente à pergunta "How many "r "s are in Strawberry?" (Quantos "r "s existem em Strawberry?).
Ao responder a perguntas com itens embaralhados, o Skywork o1 Lite limpa rapidamente a mente de distrações.
Brincar com quebra-cabeças sem cair em armadilhas linguísticas
Às vezes, os grandes modelos se confundem com perguntas de quebra-cabeça no contexto chinês, o que os leva a dar respostas erradas. Desta vez, o Skywork o1 Lite pode facilmente responder a essas perguntas.
Duas duplas de pai e filho pescaram apenas três peixes, mas cada um pegou um, e o Skywork o1 Lite conseguiu descobrir o que estava acontecendo.
Obtenha uma variedade de senso comum e diga adeus aos atributos retardados
A capacidade de um modelo grande de se aproximar do nível humano de raciocínio de senso comum é um dos indicadores mais importantes de sua capacidade de melhorar sua credibilidade, aprimorar seus recursos de tomada de decisão e expandir suas aplicações em vários domínios.
Por exemplo, a distinção entre comprimento (polegadas, centímetros, jardas) e unidades de massa (quilogramas).
Por exemplo, por que os cubos de gelo de água salgada derretem mais facilmente do que os cubos de gelo de água pura.
Outro exemplo é o de uma pessoa em pé em um barco perfeitamente parado, que se move para frente ao saltar para trás. O Skywork o1 Lite explica claramente a física por trás do fenômeno.
Torne-se um solucionador de problemas e você não terá problemas com as questões do GCSE!
O raciocínio matemático é um recurso fundamental para a solução de tarefas complexas, e modelos grandes com recursos sólidos de raciocínio matemático ajudam os usuários a solucionar com eficiência tarefas interdisciplinares complexas.
Qual é o 10º termo da sequência "2, 6, 12, 20, 30..." no problema da sequência "2, 6, 12, 20, 30..."? Qual é o 10º termo dessa sequência?". Skywork o1 Lite observa a disposição dos números, encontra um padrão, verifica o padrão e, por fim, fornece a resposta correta.
Ao resolver o problema de combinações (quantas opções para formar uma equipe de 3 de 10), o Skywork o1 Preview teve a resposta correta depois de pensar sobre isso no link completo.
Para outro problema de programação dinâmica (moedas de denominações 1, 3 e 5, quantas moedas são necessárias para fazer 11?), o Skywork o1 Lite fornece a solução ideal.
Vamos tornar o Skywork o1 Lite um pouco mais difícil, fornecendo a ele duas questões de matemática do GCSE National Paper A Maths (Wen) de 2024.
Ele começa com uma pergunta sobre probabilidade (qual é a probabilidade de que A, B, C e D estejam em uma fileira, C não esteja no início da fileira e A ou B estejam no final da fileira) e o Skywork o1 Lite fornece rapidamente a resposta correta.
Depois, há perguntas sobre funções ( ), soluções Skywork o1 Lite e respostas de uma só vez.
Habilidades de raciocínio meticuloso e lógico
O raciocínio lógico com modelos grandes é um dos principais recursos para obter uma IA de propósito geral mais forte, e o Skywork o1 Lite tem habilidade para responder a essas perguntas. Por exemplo, no clássico problema da mentira, o Skywork o1 Lite é capaz de dizer quem está dizendo a verdade e quem está mentindo a partir de uma perspectiva logicamente autoconsistente.
O Skywork o1 Lite também não é cego por paradoxos.
Imparcialidade em face de dilemas morais
A tomada de decisões éticas é, em grande parte, um fator importante para garantir o desenvolvimento seguro da IA, a adesão às normas sociais de moralidade e o aumento da confiança e da aceitação do usuário, e é ainda mais importante que os grandes modelos tenham cuidado com o que dizem.
Em vez de dar uma resposta absoluta ao antigo dilema de "salvar sua esposa ou salvar sua mãe", o Skywork o1 Lite pondera os prós e os contras e oferece bons conselhos.
Há também o dilema de "economizar mais ou menos", e o Skywork o1 Preview não tira conclusões precipitadas, mas apresenta algumas reflexões mais profundas.
É um teste retardado, e está valendo.
O Skywork o1 Lite é capaz de responder facilmente a perguntas retardadas que são frequentemente usadas para testar a inteligência de modelos grandes, como a diferença entre obter uma pontuação perfeita de 750 em um exame de admissão à faculdade e entrar em um exame de 985.
Depois, há a pergunta "você pode comer carne de almoço à noite", e o Skywork o1 Lite claramente não se deixa enganar pelo nome do alimento.
Os problemas de código também podem ser corrigidos
O Skywork o1 Lite é capaz de resolver alguns problemas de código, como o problema do número de ilhas no LeetCode.
A pergunta é: "Dado um mapa de grade bidimensional com "1" (terra) e "0" (água), conte o número de ilhas. As ilhas são cercadas por água e são formadas pela conexão horizontal ou vertical de terras adjacentes, e você pode presumir que todos os quatro lados da grade são cercados por água."
Nesse ponto, podemos tirar a próxima onda de conclusões:
Por um lado, os "pequenos" problemas que os modelos grandes costumavam ignorar são fáceis de resolver aos olhos do Skywork o1 com seu poder de raciocínio. Por outro lado, por meio doCadeia completa de pensamento e planejamento, autorreflexão e autovalidaçãoO Skywork o1 também é capaz de pensar em cenários de problemas complexos e produzir resultados mais precisos e eficientes.
Dessa forma, a capacidade de raciocínio muito mais forte do que antes inspirará o potencial do Skywork o1 a ser aplicado em tarefas e domínios pendentes mais diversos, especialmente o raciocínio lógico e tarefas científicas e matemáticas complexas que são fáceis de serem executadas. O lançamento do Skywork também otimizará ainda mais a eficácia das tarefas de geração de conteúdo de alta qualidade e pesquisa profunda, como a escrita criativa.
Modelo doméstico o1
Autopesquisa orientada por tecnologia
Anteriormente, já havíamos testemunhado uma série de aplicativos verticais de IA generativa propostos pela Kunlun World Wide, incluindo, entre outros, a direção de pesquisa, música, jogos, redes sociais e peças curtas de IA. Por trás disso, na pesquisa e no desenvolvimento da tecnologia básica do grande modelo, a Kunlun Wanwei tem um layout há muito tempo.
Desde 2020, a Kunlun Wanwei tem aumentado continuamente seu investimento em grandes modelos de IA, com a empresa lançando sua própria série de modelos AIGC apenas um mês após o lançamento do ChatGPT. Em muitas verticais, a Kunlun já lançou aplicativos, incluindo o Melodio, a primeira plataforma de streaming de música com IA do mundo, o Mureka, uma plataforma de criação de música com IA, e o Mureka, uma plataforma de drama curto com IA. SkyReels E assim por diante.
Em nível de tecnologia básica, a Kunlun já criou um layout de cadeia industrial completo de "infraestrutura aritmética - algoritmo de modelo grande - aplicativo de IA", do qual a série "Tiangong" de modelos grandes é o núcleo.
Em abril do ano passado, a Kunlun World Wide lançou seu modelo "Tiangong 1.0" desenvolvido por ela mesma. Em abril deste ano, o modelo Tiangong foi atualizado para a versão 3.0, adotando o modelo de especialista híbrido MoE com 400 bilhões de parâmetros e, simultaneamente, optando pelo código aberto. Agora, a versão 4.0 da Tiangong se baseia no método de emergência inteligente para alcançar o aprimoramento da capacidade em tarefas de raciocínio lógico.
Tecnicamente, o desempenho do Skywork o1 em tarefas de raciocínio lógico é muito melhor graças aos três estágios das soluções de treinamento desenvolvidas pela própria Skywork, incluindo o seguinte:
Em primeiro lugarTreinamento de habilidades de raciocínio e reflexãoO Skywork o1 cria dados de pensamento, reflexão e validação passo a passo de alta qualidade por meio de um sistema de corpo de inteligência múltipla autodesenvolvido, complementado por dados de pensamento longo diversificados e de alta qualidade para pré-treinamento contínuo e ajuste fino supervisionado do modelo básico.
Em segundo lugarAprendizado intensivo de raciocínioA equipe do Skywork o1 desenvolveu o mais recente Modelo de Recompensa de Processo (PRM) do Skywork o1 para aprimoramento do raciocínio passo a passo, que não apenas captura efetivamente o impacto das etapas intermediárias e de raciocínio na resposta final de uma tarefa de raciocínio complexa, mas também combina com algoritmos de aprimoramento de raciocínio passo a passo desenvolvidos por ela mesma para fortalecer ainda mais os recursos de raciocínio e pensamento do modelo.
Em terceiro lugarRaciocínio. Com base no algoritmo de raciocínio on-line Q * desenvolvido pela própria Tiangong, ele trabalha com o modelo para pensar on-line e encontrar o melhor caminho de raciocínio. Esta também é a primeira vez no mundo que o algoritmo Q* é implementado e tornado público, o que pode melhorar significativamente a capacidade de inferência do LLM em conjuntos de dados como o MATH e reduzir a demanda por recursos de computação.
No conjunto de dados MATH, o Q* ajuda o DeepSeek-Math-7b a melhorar para uma precisão de 55,4%, superando o Gêmeos Ultra.
Q * Endereço do documento do algoritmo: https://arxiv.org/abs/2406.14283
Pode-se observar que a tecnologia da Kunlun Wanwei atingiu o nível de liderança do setor e gradualmente se manteve firme no campo altamente competitivo da IA generativa.
Em comparação com o atual florescimento de aplicativos de IA generativa, a pesquisa começou a entrar em "águas profundas" no nível da tecnologia básica. Somente as empresas com acúmulo de longo prazo poderão criar uma nova geração de aplicativos que mudarão nossas vidas.
Esperamos que a Kunlun Wanwei nos traga tecnologias cada vez mais poderosas no futuro.