kimi lance la version visuelle de l'o1 pour penser et résoudre les problèmes visuellement
Tout le monde utilise des outils d'IA, et nous avons vu l'IA évoluer et se développer pas à pas. La plupart du temps, nous nous contentions de leur parler avec du texte, et il arrive que le Kernel se demande s'il ne serait pas bon de pouvoir penser correctement à partir d'images.
Après avoir fait des recherches sur un certain nombre d'IA, j'ai utilisé Kimi par la suite et j'ai constaté que ses capacités de raisonnement pouvaient être impressionnantes.
À l'époque, je me suis demandé si ses capacités pouvaient être étendues pour devenir multimodales, où l'envoi d'une image et d'une vidéo permettrait un raisonnement réfléchi et donnerait finalement une réponse fiable.
Je ne m'attendais pas à ce que Kimi fasse une mise à jour, qu'il ajoute une superbe capacité de reconnaissance d'image, qu'il l'essaie et qu'il soit surpris par la reconnaissance de texte.
L'assistant intelligent Kimi a de nouveau été mis à jour ! Peu de temps après la sortie de la version Maths que je vous avais présentée la dernière fois, Kimi a maintenant été mis à jour et mis en ligne avec le modèle amusant et utile K1 de la version Maths, et le produit correspondant est Kimi - Version avec lunettes !

Son vrai nom est Kimi Visual Thinking Edition.
Ce modèle est capable de reconnaître des images complexes, d'apporter des réponses mathématiques et scientifiques détaillées et d'effectuer un raisonnement logique. Un certain nombre de tests dépassent le modèle o1 de l'OpenAI, et la capacité à reconnaître des contenus manuscrits est également très forte, de même que la capacité à reconnaître des photos prises dans divers scénarios.


Tout d'abord, la reconnaissance de texte est impressionnante, puisque Kimi est capable de reconnaître des caractères mathématiques complexes, alors que le chinois est un peu plus simple, prenez l'image ci-dessous, c'est une évidence.

Résultats de l'identification de Kimi
Les outils de capture d'écran tels que PixPin, qui sont couramment utilisés par tout le monde, sont également capables de reconnaître du texte, mais il y a un problème avec la reconnaissance de la moitié supérieure du paragraphe (elle n'est pas reconnue directement), et il y a un problème avec l'exactitude de la reconnaissance.

Identification de l'outil de capture d'écran
On a beau dire que le taux de reconnaissance est correct - après tout, il ne s'agit pas exactement du même type d'outil, et certaines différences ne sont pas surprenantes -, Kimi n'est pas un outil de reconnaissance rigide ! Il va même jusqu'à corriger et "fact-checker" le texte de l'image originale, en "analysant chaque pixel".

L'encadré ci-dessous est corrigé par Kimi

L'encadré ci-dessous est corrigé par Kimi

Posture correcte en position verticale
Comment ne pas y voir un coup dur pour les outils d'OCR ?
En plus de la reconnaissance de texte, il est possible de répondre à des questions.
Tout d'abord, jouons à une simple question de raisonnement à partir d'une image, trouvez le modèle dans l'image ci-dessous pour choisir la bonne option, cette question est l'exemple de raisonnement graphique du test d'examen public, allez-y ~

Les réponses dans l'encadré rouge ne concernent pas Kimi.
Si vous n'êtes pas habitué à des questions similaires, vous risquez d'être un peu confus lorsque vous voyez la question et de devoir réfléchir un moment, alors que Kimi a analysé la question un grand nombre de fois, a donné le processus en détail pour chaque étape et a finalement donné la bonne réponse.

Les points mentionnés dans la réponse : les lignes droites et les courbes, le fait que le graphique soit fermé ou non, et les réflexions de Kimi à ce sujet.


Le raisonnement de base est difficile pour lui, venez essayer ce qu'il faut ajouter aux calculs.

La réponse de Kimi a été rapide et correcte, et elle a été répétée trois fois pour confirmer sa réponse et réfléchir à d'autres erreurs possibles. Il peut servir de référence pour résoudre des problèmes à l'avenir, pour voir si vous êtes le même que l'auteur de la réponse. Kimi Même logique réflexive erronée.

C'est le type de contenu qui est le plus facile pour Kimi.
Examinons à nouveau un cas avancé.
Et Kimi avait l'habitude de faire le code du sujet est encore plus professionnels homologues, dans le bouton de force pour trouver un sujet, directement la capture d'écran jeté à Kimi.


Troller sur ce sujet


Réponse de Kimi :

Le résultat final est normal grâce au test, cette rencontre ne pourra pas être remise en question, vous pouvez laisser Kimi vous apprendre comment le faire, d'ailleurs, apprenez ses idées, les vraies personnes ont battu la soumission de 5% sur l'auto-hacking "très fort", et Kimi a une main de 77%.

Outre la résolution de problèmes, Kimi peut également analyser les différentes formes qu'elle rencontre au quotidien.

Comme pour la question précédente, il ne faut pas croire qu'il est trop facile d'ajouter une autre IA et de ne pas se plaindre lorsqu'on le lui demande.

Cette fois-ci, Kimi Visual Thinking Edition n'est pas limité dans son utilisation. À l'avenir, tous ceux qui auront entre les mains des données pouvant être converties en images pourront les transmettre à Kimi afin d'obtenir davantage d'informations.
En regardant les mises à jour de Kimi, on a plutôt l'impression de débloquer de nouvelles compétences après avoir fait une chose à un niveau excellent, plutôt que d'en faire plusieurs et que tout cela ne fonctionne pas très bien, ce qui laisse une certaine attente pour des produits plus forts à suivre, des outils pour générer des vidéos et manipuler le logiciel, et ainsi de suite.

© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...