kimi lanciert visuelle Version von o1, um Probleme visuell zu denken und zu lösen

AI-NachrichtenGeschrieben vor 9 Monaten AI-Austauschkreis

16.2K 00

Jeder nutzt KI-Tools, und wir haben beobachtet, wie sich die KI Schritt für Schritt weiterentwickelt hat. Meistens haben wir nur mit Text mit ihnen gesprochen, und es gibt Zeiten, in denen Kernel sich fragt, wann es schön wäre, gut über Bilder denken zu können.

Nachdem ich mich über KI informiert hatte, benutzte ich später Kimi und stellte fest, dass seine Denkfähigkeiten beeindruckend sein können.

Damals habe ich mich gefragt, ob man die Funktionen nicht multimodal erweitern könnte, so dass die Übermittlung eines Bildes und eines Videos ein reflektiertes Nachdenken ermöglichen und schließlich eine zuverlässige Antwort liefern würde.

Ich habe nicht erwartet, ah, Kimi hinterrücks ein Update, fügte eine hervorragende Bilderkennung Fähigkeit, versuchte es nicht einmal Texterkennung Überraschung erwarten.

Kimi Smart Assistant ist wieder aktualisiert worden! Nicht lange nach der Veröffentlichung der Mathe-Version, die ich Ihnen beim letzten Mal vorgestellt habe, hat Kimi nun ein Upgrade erhalten und ist mit dem lustigen und nützlichen K1-Modell aus der Mathe-Version live gegangen, und das entsprechende Produkt ist Kimi - die brillentragende Version!

Sein richtiger Name ist Kimi Visual Thinking Edition.

Dieses Modell kann komplexe Bildinhalte erkennen, detaillierte "mathematische Antworten und logisches Denken" durchführen, eine Reihe von Tests über das o1-Modell von OpenAI, und die Fähigkeit, handschriftliche Inhalte zu erkennen, ist ebenfalls sehr stark und kann Bilder erkennen, die in einer Vielzahl von Szenarien aufgenommen wurden.

Es sieht ziemlich gut aus, also fangen wir gleich damit an. Der erste Punkt ist die unverschämte Texterkennung, denn Kimi kann sogar komplexe mathematische Zeichen erkennen, während Chinesisch etwas einfacher ist, siehe das Bild unten.

Kimi's Identifikationsergebnisse

Screenshot-Tools wie PixPin, die allgemein verwendet werden, sind ebenfalls in der Lage, Text zu erkennen, aber es gibt ein Problem mit der Erkennung der oberen Hälfte des Absatzes (sie wird nicht direkt erkannt), und es gibt ein Problem mit der Korrektheit der Erkennung.

Identifizierung des Screenshot-Tools

Es ist schön und gut zu sagen, dass die Erkennungsrate korrekt ist - schließlich handelt es sich nicht um genau dieselbe Art von Werkzeug, und einige der Unterschiede sind nicht überraschend - aber Kimi ist kein starres Erkennungswerkzeug! Es korrigiert und "überprüft" sogar den Text des Originalbildes, indem es buchstäblich "jedes Pixel analysiert".

Der folgende Kasten wurde von Kimi korrigiert

Richtige Körperhaltung in aufrechter Position

Warum ist dies kein Rückschlag für OCR-Tools?

Neben der Texterkennung ist auch die Möglichkeit vorhanden, Fragen zu beantworten.

Zunächst einmal spielen wir ein einfaches Bild Argumentation Fragen, finden Sie das Muster in das Bild unten, um die richtige Option zu wählen, ist diese Frage der öffentlichen Prüfung Test grafische Argumentation Beispiele, gehen Sie ~

Die Antworten im roten Kasten sind nicht für Kimi.

Wenn man nicht mit ähnlichen Fragen konfrontiert wird, ist man vielleicht etwas verwirrt, wenn man die Frage sieht und muss eine Weile nachdenken, während Kimi die Frage eine ganze Reihe von Malen analysierte, den Prozess für jeden Schritt detailliert darlegte und schließlich die richtige Antwort gab.

Die in der Antwort erwähnten Punkte: Geraden und Kurven, ob das Diagramm geschlossen ist oder nicht, und Kimis Gedanken dazu.

Grundlegendes Denken ist schwer für sie, kommen Sie und versuchen Sie, was zu den Berechnungen hinzugefügt werden muss.

Kimis Antwort war schnell und richtig, und sie wurde dreimal wiederholt, um ihre Antwort zu bestätigen und über andere mögliche Fehler nachzudenken. Es kann als Referenz für die Lösung zukünftiger Probleme verwendet werden, um zu sehen, ob man dasselbe tut wie der Kimi Dieselbe fehlerhafte reflektierende Logik.

Dies ist die Art von Inhalt, die für Kimi einfacher ist.

Schauen wir uns noch einmal ein fortgeschrittenes Beispiel an.

Und Kimi verwendet, um den Code Thema zu tun ist noch professioneller Gegenstücke, in der Kraft-Taste, um ein Thema zu finden, direkt Screenshot geworfen Kimi.

Trolling über dieses Thema

Kimi's Antwort:

Das Endergebnis ist normal durch den Test, wird diese Begegnung nicht in der Lage zu fragen, können Sie Kimi lehren, wie es zu tun, durch die Art und Weise, lernen ihre Ideen, echte Menschen schlagen die 5% Vorlage auf dem Selbst-Hacking "sehr stark", und Kimi eine Hand ist 77%.

Kimi kann nicht nur Probleme lösen, sondern auch die verschiedenen Formen analysieren, denen sie täglich begegnet.

Wie bei der obigen Frage sollte man nicht denken, dass es zu einfach ist, eine andere KI einzubauen und nicht zu petzen, wenn man gefragt wird.

Und dieses Mal, Kimi Visual Thinking Edition ist auch ohne die Verwendung von Einschränkungen, in der Zukunft, jeder in den Händen der Daten, die in Bild-Inhalte umgewandelt werden kann, kann Kimi gegeben werden, um mehr Informationen zu entsperren.

Wenn man sich die Aktualisierungen von Kimi ansieht, ist es eher so, dass man neue Fähigkeiten freischaltet, nachdem man eine Sache auf einem exzellenten Niveau gemacht hat, als dass man einen ganzen Haufen davon macht und ein ganzer Haufen davon nicht sehr gut funktioniert, was eine gewisse Vorfreude auf stärkere Produkte, die folgen werden, auf Werkzeuge zur Erstellung von Videos und zur Manipulation der Software und so weiter hinterlässt.

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Wie die KI-Intelligenz von Rexera die Qualitätskontrolle mit LangGraph vorantreibt

AI-Nachrichten

vor 9 Monaten

013.5K

Alibaba AI Research Institute veröffentlicht CosyVoice 2: ein verbessertes Streaming-Sprachsynthesemodell

AI-Nachrichten

vor 8 Monaten

013.5K

7K star: Ein Gymnasiast entwickelte eine große Modellmanagement-Plattform und verdiente 100w!

AI-Nachrichten

vor 10 Monaten

012.3K

Shopify's neuer "Magic" AI-Bildeditor bringt die Qualität Ihrer Produktbilder zur Geltung

AI-Nachrichten

vor 2 Jahren

014.6K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

kimi lanciert visuelle Version von o1, um Probleme visuell zu denken und zu lösen

OpenAI veröffentlicht offiziell o3 und o3-mini, die ersten KI-Modelle, die die ARC-AGI-Benchmarks brechen

LongBench v2: Auswertung von Langtext +o1?

Ähnliche Artikel

Wie die KI-Intelligenz von Rexera die Qualitätskontrolle mit LangGraph vorantreibt

Alibaba AI Research Institute veröffentlicht CosyVoice 2: ein verbessertes Streaming-Sprachsynthesemodell

7K star: Ein Gymnasiast entwickelte eine große Modellmanagement-Plattform und verdiente 100w!

Shopify's neuer "Magic" AI-Bildeditor bringt die Qualität Ihrer Produktbilder zur Geltung

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

kimi lanciert visuelle Version von o1, um Probleme visuell zu denken und zu lösen

OpenAI veröffentlicht offiziell o3 und o3-mini, die ersten KI-Modelle, die die ARC-AGI-Benchmarks brechen

LongBench v2: Auswertung von Langtext +o1?

Ähnliche Artikel

Wie die KI-Intelligenz von Rexera die Qualitätskontrolle mit LangGraph vorantreibt

Alibaba AI Research Institute veröffentlicht CosyVoice 2: ein verbessertes Streaming-Sprachsynthesemodell

7K star: Ein Gymnasiast entwickelte eine große Modellmanagement-Plattform und verdiente 100w!

Shopify's neuer "Magic" AI-Bildeditor bringt die Qualität Ihrer Produktbilder zur Geltung

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel