Le grand modèle national fait ses débuts dans le raisonnement logique chinois, "Tiangong big model 4.0" version o1 est là !

Je n'avais pas réalisé que la technologie pouvait évoluer aussi rapidement. Récemment, les gens imaginent déjà la vie après l'ère de l'IA.

Au cours du week-end, Jamie Dimon, PDG de JPMorgan Chase, a déclaré que grâce à la technologie de l'IA, les générations futures pourraient ne travailler que trois jours et demi par semaine et vivre jusqu'à 100 ans.

Certaines recherches suggèrent que des technologies telles que l'IA générative pourraient automatiser des tâches qui occupent actuellement 60 à 70% du temps de travail des personnes. D'où viendra la technologie nécessaire à ces changements ? Il s'agit forcément d'une percée de l'IA, et quelqu'un a compilé une liste de prédictions de différents grands noms de l'IA sur la date d'émergence de l'intelligence artificielle générale (AGI).

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Comme le PDG d'OpenAI, Sam Altman, qui pense même que l'AGI sera là l'année prochaine. À bien y penser.Cette confiance peut s'expliquer par le fait que les gens ont récemment appris à "raisonner" à l'aide de grands modèles.

En septembre, l'OpenAI a officiellement rendu public le grand modèle de raisonnement complexe sans précédent, o1, une avancée majeure dans la mesure où le nouveau modèle possède à la fois des capacités générales et la capacité de résoudre des problèmes plus difficiles que les modèles scientifiques, codés et mathématiques précédents n'ont pu le faire. Les résultats expérimentaux montrent que o1 surpasse largement GPT-4o dans la grande majorité des tâches de raisonnement.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

L'OpenAI a ouvert une nouvelle voie pour la capacité des grands modèles : la question de savoir s'ils peuvent penser et raisonner comme un humain est devenue un indicateur important pour juger de leur capacité. Si les nouveaux modèles proposés par les fournisseurs n'ont pas de chaîne de pensée, je crains qu'ils ne soient gênés de les montrer.

La communauté de l'IA, en particulier les grandes entreprises de modélisation en Chine, a un impact sur la suprématie de l'O1 et commence à prendre la tête dans certaines évaluations qui font autorité.

Aujourd'hui.Le premier modèle o1 chinois doté d'une capacité de raisonnement logique est arrivé. Il s'agit de la version o1 "Skywork 4.0" (nom anglais : Skywork o1) lancée par Kunlun MSI.. Il s'agit de la troisième initiative importante de l'entreprise concernant les grands modèles et les applications connexes au cours du mois dernier, après l'annonce de la création d'une nouvelle société de gestion de l'information et d'une nouvelle société de conseil.Skyworks AI Recherche avancée,Dialogue vocal en temps réel Assistant IA Skyo Apparitions séquentielles.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Désormais, Skywork o1 ouvrira le test interne, si vous voulez en faire l'expérience, vous devez postuler dès maintenant.

Postulez à l'adresse suivante : www.tiangong.cn

Trois modèles côte à côte

Un nouveau champ de bataille pour le raisonnement

Cette fois, Skywork o1 comprend les trois modèles suivants, à la fois une version ouverte pour redonner à la communauté open source et une version dédiée plus performante.

Entre autres, la version open source de Skywork o1 Ouvert En même temps, Skywork o1 Open débloque des tâches d'inférence mathématique (par exemple, le calcul à 24 points) qui ne sont pas possibles avec des modèles à plus grande échelle tels que GPT-4o. Cela ouvre également la possibilité de déployer des modèles d'inférence sur des appareils légers.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

En outre, Kunlun ouvrira également deux modèles de processus et de récompense (PRM) pour les tâches de raisonnement, à savoir Skywork o1 Open-PRM-1.5B répondre en chantant Skywork o1 Open-PRM-7BLe modèle Skywork-Reward-Model, jusqu'à présent en libre accès, n'évalue que l'ensemble de la réponse du modèle. Alors que le modèle Skywork-Reward-Model, précédemment en libre accès, n'évalue que l'ensemble de la réponse du modèle, Skywork o1 Open-PRM peut être affiné pour évaluer chaque étape de la réponse du modèle.

Comparé aux PRM existants dans la communauté open source, Skywork o1 Open-PRM-1.5B peut atteindre des résultats de modèle 8B, tels que Llama3.1-8B-PRM-Deepseek-Data de RLHFlow, et Math-psa-7B d'OpenR.Skywork o1 Open-PRM-7B est plus puissant, capable de s'approcher simultanément de Qwen2.5-Math-RM-72B, voire de le surpasser, par un facteur de 10 sur la plupart des points de référence.

Il est rapporté queSkywork o1 Open-PRM est également le premier PRM open source pour les tâches basées sur le code.. Le tableau suivant montre les résultats de l'évaluation utilisant Skywork-o1-Open-8B comme modèle de base, en utilisant différents PRM sur les ensembles Maths et Code Review.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Remarque : à l'exception de Skywork-o1-Open-PRM, les autres PRM open source ne sont pas spécifiquement optimisés pour les tâches basées sur le code, de sorte qu'aucune comparaison n'est effectuée pour les tâches basées sur le code.

Un rapport technique détaillé sera également publié prochainement. Le modèle et la présentation associée sont actuellement en libre accès sur Huggingface.

Adresse de la source ouverte : https://tinyurl.com/skywork-o1

Skywork o1 Lite Avec la capacité de penser de manière complète et d'atteindre une vitesse de raisonnement et de pensée plus rapide, il ou elle est particulièrement doué(e) pour les problèmes de logique et de raisonnement chinois, les mathématiques, etc.Aperçu de Skywork o1 Il s'agit de la version complète du modèle de raisonnement, avec des algorithmes de raisonnement en ligne auto-développés. Par rapport à la version Lite, elle peut présenter un processus de réflexion plus diversifié et plus approfondi, afin d'obtenir un raisonnement plus complet et de meilleure qualité.

Vous pouvez vous demander ce qui différencie Skywork o1 des travaux actuels sur la reproduction des modèles o1, qui travaillent tous au niveau de l'inférence.

Kunlun a déclaré que la série de modèles endogénéise la capacité de penser, de planifier et de réfléchir sur les résultats du modèle, de raisonner, de réfléchir et de vérifier étape par étape en pensant lentement, en débloquant des versions avancées typiques des capacités de pensée humaine complexe telles que la "pensée profonde" et en garantissant la qualité et la profondeur des réponses.

Bien sûr, il faudra voir comment le Skywork o1 se comporte sur le terrain.

expérience de première main

Cette fois-ci, Skywork o1 a parfaitement compris le raisonnement.

J'ai obtenu la qualification pour le test à l'avance et j'ai examiné tous les aspects de la capacité de raisonnement des modèles de la série Skywork o1, en particulier les versions Lite et Preview. La figure suivante montre l'interface de Skywork o1 Lite.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Nous commençons par laisser Skywork o1 Lite faire son propre rapport, et nous pouvons voir que le modèle ne donne pas la réponse directement, mais plutôtVisualiser l'ensemble du processus de réflexion, y compris l'orientation des problèmes, le profilage des compétences personnelles, etc. pour l'utilisateuret le feraMontrer le temps de réflexionqui est une caractéristique distinctive des modèles de raisonnement actuels.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Pour passer au test officiel, nous avons passé en revue différents types de questions de raisonnement pour voir si nous pouvions réellement comprendre le Skywork o1.

Comparez les tailles, comptez les problèmes de "r", ne faites plus la roue !

Auparavant, les grands modèles ont souvent échoué lorsqu'ils étaient confrontés à des problèmes apparemment simples de comparaison de tailles et de comptage. Désormais, ces problèmes ne se posent plus pour Skywork o1 Lite.

Lorsqu'il s'agit de déterminer si 13,8 est plus grand que 13,11, Skywork o1 Lite suit une chaîne de pensée complète pour découvrir que la clé de la résolution du problème réside dans la taille des décimales. Le modèle s'auto-réfléchit également, vérifiant les conclusions auxquelles il est parvenu et rappelant les points où il est facile de répondre de manière incorrecte.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

De même, en répondant correctement à la question "Combien y a-t-il de "r" dans Fraise ?" Skywork o1 Lite est également la chaîne complète de réflexion, de vérification et de confirmation lorsqu'il s'agit de répondre correctement à la question "Combien y a-t-il de "r" dans Fraise ?

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Lorsque vous répondez à des questions avec des éléments brouillés, Skywork o1 Lite libère rapidement l'esprit des distractions.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Jouer avec des casse-tête sans tomber dans les pièges de la langue

Les grands modèles sont parfois déconcertés par les questions de casse-tête en contexte chinois, ce qui les amène à donner des réponses erronées. Cette fois-ci, Skywork o1 Lite peut facilement répondre à ces questions.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Deux paires père-fils n'ont pris que trois poissons, mais chacun en a eu un, et Skywork o1 Lite a pu comprendre ce qui se passait.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Faites preuve de bon sens et dites adieu aux attributs attardés.

La capacité d'un grand modèle à s'approcher du niveau humain de raisonnement de bon sens est l'un des indicateurs les plus importants de sa capacité à améliorer sa crédibilité, à renforcer ses capacités de prise de décision et à étendre ses applications à de multiples domaines. skywork o1 Lite et Preview obtiennent tous deux de bons résultats à cet égard.

Par exemple, la distinction entre la longueur (pouces, centimètres, yards) et les unités de masse (kilogrammes).

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Par exemple, pourquoi les glaçons à l'eau salée fondent plus facilement que les glaçons à l'eau plate.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Un autre exemple est celui d'une personne se tenant sur un bateau parfaitement immobile, qui avance lorsqu'elle saute en arrière.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Devenez un spécialiste de la résolution de problèmes et vous n'aurez aucun mal à répondre aux questions du GCSE !

Le raisonnement mathématique est une capacité fondamentale pour résoudre des tâches complexes, et les grands modèles dotés de fortes capacités de raisonnement mathématique aident les utilisateurs à résoudre efficacement des tâches interdisciplinaires complexes.

Quel est le 10ème terme de la suite "2, 6, 12, 20, 30..." dans le problème de la suite "2, 6, 12, 20, 30..." ? Quel est le 10ème terme de cette suite ?". Skywork o1 Lite observe la disposition des nombres, trouve un modèle, vérifie le modèle et donne finalement la bonne réponse.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

En résolvant le problème des combinaisons (combien de choix pour former une équipe de 3 sur 10), Skywork o1 Preview a trouvé la bonne réponse après y avoir réfléchi en lien complet.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Pour un autre problème de programmation dynamique (pièces de monnaie de valeurs 1, 3 et 5, combien de pièces faut-il pour faire 11 ?), Skywork o1 Lite donne la solution optimale.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Nous allons rendre le Skywork o1 Lite un peu plus difficile en lui donnant deux questions de maths du GCSE National Paper A Maths (Wen) de 2024.

Il commence par une question de probabilité (quelle est la probabilité que A, B, C et D soient dans une rangée, que C ne soit pas en tête de rangée et que A ou B soit à la fin de la rangée), et Skywork o1 Lite donne rapidement la bonne réponse.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Il y a ensuite les questions de fonction ( 国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了 ), Skywork o1 Lite solutions et réponses en une seule fois.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Capacité de réflexion minutieuse et logique

Le raisonnement logique avec de grands modèles est l'une des capacités essentielles pour parvenir à une IA plus puissante et polyvalente, et Skywork o1 Lite a un don pour répondre à ce type de questions. Par exemple, dans le problème classique du mensonge, Skywork o1 Lite est capable de dire qui dit la vérité et qui ment d'un point de vue logiquement cohérent.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Le Skywork o1 Lite n'est pas non plus aveuglé par les paradoxes.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Impartialité face aux dilemmes moraux

La prise de décision éthique est un facteur important pour garantir le développement sûr de l'IA, le respect des normes morales de la société et l'amélioration de la confiance et de l'acceptation des utilisateurs, et il est d'autant plus important que les grands modèles fassent attention à ce qu'ils disent.

Au lieu de donner une réponse absolue à l'éternel dilemme "sauver sa femme ou sauver sa mère", Skywork o1 Lite pèse le pour et le contre et donne des conseils avisés.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Il y a aussi le dilemme "économiser plus ou moins", et Skywork o1 Preview ne tire pas de conclusions hâtives, mais propose plutôt des réflexions plus approfondies.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

C'est un test débile, et il est maintenu.

Le Skywork o1 Lite est capable de répondre facilement à des questions retardées qui sont souvent utilisées pour tester l'intelligence des grands modèles, comme la différence entre une note parfaite de 750 à un examen d'entrée à l'université et une note de 985 à un examen d'entrée.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Le Skywork o1 Lite n'est manifestement pas trompé par le nom de l'aliment.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Les problèmes de code peuvent également être résolus

Skywork o1 Lite est capable de résoudre certains problèmes de code, comme le problème du nombre d'îles sur LeetCode.

La question est la suivante : "Compte tenu d'une carte quadrillée en deux dimensions avec "1" (terre) et "0" (eau), comptez le nombre d'îles. Les îles sont entourées d'eau et sont formées en reliant horizontalement ou verticalement des terres adjacentes, et vous pouvez supposer que les quatre côtés de la grille sont entourés d'eau."

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

À ce stade, nous pouvons tirer la prochaine vague de conclusions :

D'une part, les "petits" problèmes que les grands modèles avaient l'habitude d'ignorer sont un jeu d'enfant aux yeux de Skywork o1 et de son pouvoir de raisonnement. D'autre part, grâce à laChaîne complète de pensée et de planification, d'auto-réflexion et d'auto-validationLe Skywork o1 est également capable de réfléchir à des scénarios de problèmes complexes et de produire des résultats plus précis et plus efficaces.

Ainsi, la capacité de raisonnement beaucoup plus forte qu'auparavant inspirera le potentiel de Skywork o1 à être appliqué dans des tâches pendantes et des domaines plus variés, en particulier le raisonnement logique et les tâches scientifiques et mathématiques complexes qui sont faciles à maîtriser. Le lancement de Skywork devrait également permettre d'optimiser l'efficacité des tâches de génération de contenu de haute qualité et de recherche approfondie, telles que l'écriture créative.

Modèle domestique o1

Auto-recherche axée sur la technologie

Auparavant, nous avons déjà été témoins d'une série d'applications verticales d'IA générative proposées par Kunlun World Wide, y compris, mais sans s'y limiter, la recherche, la musique, les jeux, le réseautage social et les courts métrages d'IA. Derrière cela, dans la recherche et le développement de la technologie de base du grand modèle, Kunlun Wanwei a longtemps eu une disposition.

Depuis 2020, Kunlun Wanwei n'a cessé d'accroître ses investissements dans les grands modèles d'IA, l'entreprise ayant lancé sa propre série de modèles AIGC un mois seulement après la mise en ligne de ChatGPT. Dans de nombreux secteurs verticaux, Kunlun a déjà lancé des applications, notamment Melodio, la première plateforme de musique en streaming basée sur l'IA, Mureka, une plateforme de création musicale basée sur l'IA, et Mureka, une plateforme de courts-métrages dramatiques basée sur l'IA. SkyReels Et ainsi de suite.

Au niveau de la technologie de base, Kunlun a déjà construit une chaîne industrielle complète "infrastructure arithmétique - algorithme de grand modèle - application de l'IA", dont la série de grands modèles "Tiangong" est le cœur.

En avril de l'année dernière, Kunlun World Wide a publié son propre modèle "Tiangong 1.0". En avril de cette année, le modèle Tiangong est passé à la version 3.0, adoptant le modèle d'expert hybride MoE avec 400 milliards de paramètres, et optant simultanément pour l'open source. Aujourd'hui, la version 4.0 de Tiangong est basée sur la méthode de l'émergence intelligente pour améliorer la capacité des tâches de raisonnement logique.

Techniquement, les performances du Skywork o1 dans les tâches de raisonnement logique sont considérablement améliorées grâce aux trois étapes des solutions de formation auto-développées de Skywork, dont les suivantes :

tout d'abordFormation au raisonnement et à la réflexionSkywork o1 construit des données de réflexion et de validation de haute qualité, étape par étape, par le biais d'un système de corps multi-intelligence auto-développé, complété par des données de réflexion à long terme de haute qualité et diversifiées pour un pré-entraînement continu et une mise au point supervisée du modèle de base.

DeuxièmementApprentissage intensif du raisonnementL'équipe de Skywork o1 a développé le dernier modèle de récompense du processus Skywork o1 (PRM) pour l'amélioration du raisonnement étape par étape, qui non seulement capture efficacement l'impact des étapes intermédiaires et de réflexion sur la réponse finale d'une tâche de raisonnement complexe, mais se combine également avec des algorithmes d'amélioration du raisonnement étape par étape auto-développés pour renforcer davantage les capacités de raisonnement et de réflexion du modèle.

troisièmementRaisonnement. Basé sur l'algorithme de raisonnement en ligne Q * développé par Tiangong, il fonctionne avec le modèle pour réfléchir en ligne et trouver le meilleur chemin de raisonnement. C'est également la première fois au monde que l'algorithme Q * est mis en œuvre et rendu public, ce qui peut améliorer considérablement la capacité d'inférence de LLM sur des ensembles de données tels que MATH et réduire la demande de ressources informatiques.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Sur l'ensemble de données MATH, Q * permet à DeepSeek-Math-7b d'atteindre une précision de 55,4%, surpassant ainsi la méthode Gémeaux Ultra.

Q * Adresse de l'article sur les algorithmes : https://arxiv.org/abs/2406.14283

On peut constater que la technologie de Kunlun Wanwei a atteint le niveau de pointe de l'industrie et qu'elle s'est progressivement imposée dans le domaine hautement concurrentiel de l'IA générative.

Par rapport à l'essor actuel des applications d'IA générative, la recherche a commencé à entrer dans les "eaux profondes" au niveau de la technologie de base. Seules les entreprises qui accumulent des fonds à long terme peuvent créer une nouvelle génération d'applications qui changeront nos vies.

Nous attendons avec impatience que Kunlun Wanwei nous apporte des technologies de plus en plus performantes à l'avenir.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...