Jeder nutzt KI-Tools, und wir haben beobachtet, wie sich die KI Schritt für Schritt weiterentwickelt hat. Meistens haben wir uns mit ihnen nur über Text unterhalten, und es gibt Zeiten, in denen sich Kernel fragt, wann es schön wäre, gut über Bilder nachdenken zu können.
Nachdem ich mich über KI informiert hatte, benutzte ich später Kimi und stellte fest, dass seine Denkfähigkeiten beeindruckend sein können.
Damals habe ich mich gefragt, ob man die Fähigkeiten des Systems erweitern könnte, um multimodal zu sein, so dass das Senden eines Bildes und eines Videos eine reflektierte Argumentation und schließlich eine zuverlässige Antwort ermöglichen würde.
Das habe ich nicht erwartet, Kimi hat ein Update nachgeschoben und eine hervorragende Bilderkennung hinzugefügt, ich habe es ausprobiert und nicht erwartet, dass sogar die Texterkennung eine Überraschung sein würde.
Kimi Smart Assistant ist wieder aktualisiert worden! Nicht lange nach der Veröffentlichung der Mathe-Version, die ich Ihnen beim letzten Mal vorgestellt habe, hat Kimi nun ein Upgrade erhalten und ist mit dem lustigen und nützlichen K1-Modell aus der Mathe-Version live gegangen, und das entsprechende Produkt ist Kimi - die brillentragende Version!
Dieses Modell kann komplexe Bildinhalte erkennen, detaillierte "mathematische und wissenschaftliche Antworten und logisches Denken" durchführen, eine Reihe von Tests über das o1-Modell von OpenAI, und die Fähigkeit, handschriftliche Inhalte zu erkennen, ist ebenfalls sehr stark, und kann Bilder erkennen, die in einer Vielzahl von Szenarien aufgenommen wurden.
Es sieht ziemlich gut aus, also fangen wir gleich damit an. Der erste Punkt ist die unverschämte Texterkennung, denn Kimi kann sogar komplexe mathematische Zeichen erkennen, während Chinesisch etwas einfacher ist, siehe das Bild unten.
Screenshot-Tools wie PixPin, die allgemein verwendet werden, sind ebenfalls in der Lage, Text zu erkennen, aber es gibt ein Problem mit der Erkennung der oberen Hälfte des Absatzes (sie wird nicht direkt erkannt), und es gibt ein Problem mit der Korrektheit der Erkennung.
Es ist schön und gut zu sagen, dass die Erkennungsrate korrekt ist - schließlich handelt es sich nicht um genau dieselbe Art von Werkzeug, und einige der Unterschiede sind nicht überraschend - aber Kimi ist kein starres Erkennungswerkzeug! Es korrigiert und "überprüft" sogar den Text des Originalbildes, indem es buchstäblich "jedes Pixel analysiert".
Warum ist dies kein Rückschlag für OCR-Tools?
Neben der Texterkennung ist auch die Möglichkeit vorhanden, Fragen zu beantworten.
Zunächst einmal spielen wir ein einfaches Bild Argumentation Fragen, finden Sie das Muster in das Bild unten, um die richtige Option zu wählen, ist diese Frage der öffentlichen Prüfung Test grafische Argumentation Beispiele, gehen Sie ~
Wenn man nicht mit ähnlichen Fragen konfrontiert ist, ist man vielleicht etwas verwirrt, wenn man die Frage sieht, und muss eine Weile nachdenken, während Kimi die Frage eine ganze Reihe von Malen analysiert hat, den Prozess für jeden Schritt detailliert beschrieben hat und schließlich die richtige Antwort gegeben hat.
Die in der Antwort genannten Punkte: Geraden und Kurven, ob das Diagramm geschlossen ist oder nicht, und Kimis Überlegungen dazu.
Grundlegendes Denken ist schwer für sie, kommen Sie und versuchen Sie, was zu den Berechnungen hinzugefügt werden muss.
Kimis Antwort war schnell und richtig, und sie wurde dreimal wiederholt, um ihre Antwort zu bestätigen und über andere mögliche Fehler nachzudenken. Es kann als Referenz für die Lösung zukünftiger Probleme verwendet werden, um zu sehen, ob man dasselbe tut wie der Kimi Dieselbe fehlerhafte reflektierende Logik.
Dies ist die Art von Inhalt, die für Kimi einfacher ist.
Schauen wir uns noch einmal ein fortgeschrittenes Beispiel an.
Und Kimi verwendet, um den Code Thema zu tun ist noch professioneller Gegenstücke, in der Kraft-Taste, um ein Thema zu finden, direkt Screenshot geworfen Kimi.
Trolling über dieses Thema
Kimi's Antwort:
Das Endergebnis ist normal durch den Test, wird diese Begegnung nicht in der Lage zu fragen, können Sie Kimi lehren, wie es zu tun, durch die Art und Weise, lernen ihre Ideen, echte Menschen schlagen die 5% Vorlage auf dem Selbst-Hacking "sehr stark", und Kimi eine Hand ist 77%.
Kimi kann nicht nur Probleme lösen, sondern auch die verschiedenen Formen analysieren, denen sie täglich begegnet.
Wie bei der obigen Frage sollte man nicht denken, dass es zu einfach ist, eine andere KI einzubauen und nicht zu petzen, wenn man gefragt wird.
Und dieses Mal, Kimi Visual Thinking Edition ist auch ohne die Verwendung von Einschränkungen, in der Zukunft, jeder in den Händen der Daten, die in Bild-Inhalte umgewandelt werden kann, kann Kimi gegeben werden, um mehr Informationen zu entsperren.
Wenn man sich die Aktualisierungen von Kimi ansieht, ist es eher so, dass man neue Fähigkeiten freischaltet, nachdem man eine Sache auf einem exzellenten Niveau gemacht hat, als dass man einen ganzen Haufen davon macht und ein ganzer Haufen davon nicht sehr gut funktioniert, was eine gewisse Vorfreude auf stärkere Produkte, die folgen werden, auf Werkzeuge zur Erstellung von Videos und zur Manipulation der Software und so weiter hinterlässt.