誰もがAIツールを使っていて、私たちはAIが一歩一歩進化し、成長していくのを見てきた。 以前はテキストで会話することがほとんどだったが、カーネルは絵についてうまく考えることができたらいいのにと思うことがある。
多くのAIを研究した後、キミを後で使ってみたら、その推論能力は素晴らしいものだった。
当時、私はこの機能をマルチモーダルなものに拡張できないかと考えていた。写真とビデオを送ることで、反射的な推論が可能になり、最終的に信頼できる答えを出すことができる。
まさか、キミがアップデートをバックハンドで行い、見事な画像認識機能を追加するとは思わなかった。
キミ・スマートアシスタントがまたまたアップデートされました!前回ご紹介した数学バージョンのリリースから間もなく、Kimiは数学バージョンから楽しくて便利なK1モデルへとバージョンアップし、稼働を開始しました!
このモデルは、複雑な画像コンテンツを認識し、詳細な「数学的回答と論理的推論」を実行することができ、OpenAIのo1モデルを上回るテストの数、手書きのコンテンツを認識する能力も非常に強く、さまざまなシナリオで撮影された写真を認識することができます。
Kimiは複雑な数学の文字も認識できるが、中国語はもう少し単純だ。
誰もがよく使うPixPinなどのスクリーンショットツールもテキスト認識は可能だが、段落の上半分の認識に問題があり(直接認識されない)、認識の正しさに問題がある。
認識率が正しいと言うのは結構なことだ--結局のところ、まったく同じ種類のツールではないし、驚くような違いではない部分もある--が、Kimiは堅苦しい認識ツールではない!元画像のテキストを修正し、「事実確認」さえする。文字通り「すべてのピクセルを分析」するのだ。
これがOCRツールへの天下りの打撃にならないわけがない。
テキスト認識に加え、質問に答える機能もある。
まず、簡単な絵の推論の問題をプレイしてみましょう、正しい選択肢を選択するには、下の画像のパターンを見つける、この問題は、公的な試験試験グラフィカル推論の例であり、あなたが〜行く
同じような質問に慣れていない人なら、その質問を見て少し混乱し、しばらく考え込んでしまうかもしれないが、キミはその質問を何度も分析し、各ステップのプロセスを詳細に説明し、最終的に正解を出した。
直線と曲線、グラフが閉じているかどうか、そしてそれに対するキミの考え方。
基本的な推理は難しい。
希美の答えは速く、正解だった。答えを確認し、他の間違いの可能性を考えるために3回繰り返した。と同じかどうか、今後問題を解くときの参考にすることができる。 キミ 同じように誤った反射的論理だ。
キミにとっては、このような内容の方がやりやすい。
高度なものをもう一度見てみよう。
そして、キミはコードのトピックを行うために使用され、さらにプロフェッショナルな対応であり、トピックを見つけるために強制ボタンで、直接スクリーンショットがキミにスローされます。
このトピックに関する荒らし
キミの答え
最終的な結果は、テストを通じて正常である、この出会いは質問することはできません、あなたはキミがそれを行う方法を教えることができます、ところで、そのアイデアを学ぶ、実際の人々は、セルフハッキングで5%提出を破った "非常に強い "と、キミの手は77%です。
問題を解決するだけでなく、キミは日々遭遇するさまざまな形を分析することもできる。
上記の質問のように、他のAIを投入するのが簡単すぎて、質問されてもキーキー言うべきではないと考えるべきだろう。
そして今回、キミ・ビジュアルシンキング・エディションも制限を設けることなく、将来的には誰もが手にすることができるデータを画像コンテンツに変換し、キミに与えてより多くの情報を引き出すことができる。
キミのアップデートを見る限り、1つのことを優秀なレベルまでやってから新たなスキルをアンロックするというよりは、一通りやって一通りはあまりうまくいかず、その後に続くより強力な製品や、ビデオを生成したりソフトを操作するためのツールなどに期待を残すという感じだ。