kimi推出视觉版o1，用视觉思考并解决问题

AI新闻1年前发布 AI分享圈

55.9K 00

大家都在用AI工具，我们看着AI一步一步发展壮大，以前大部分是我们仅仅用文字跟它们聊天，有些时候果核就会在想：要是什么时候能对图片进行很好的思考就好了。

研究了一堆AI之后，后面用起Kimi，发现它的推理功能可以说是让人印象深刻。

当时就在想它的能力能不能扩展成多模态的，发一张图片和一段视频就能进行反思推理，最后给出一个靠谱的答案。

没想到啊，Kimi反手就是一个更新，加上了一个超强的图片识别能力，试了一下没想到连文字识别都有惊喜。

Kimi智能助手又更新了！距离上次给大家介绍的数学版发布过去不久，Kimi现在从数学版的基础上，升级并上线了好玩实用的K1模型，对应产品是Kimi——戴眼镜版！

kimi推出视觉版o1，用视觉思考并解决问题

真名「Kimi视觉思考版」

这个模型能识别复杂的图片内容，进行详细的“数理化解答与逻辑推理”，多项测试超过了OpenAI的o1模型，而且识别手写内容的能力也很强，能识别各种场景拍的图。

kimi推出视觉版o1，用视觉思考并解决问题

kimi推出视觉版o1，用视觉思考并解决问题

看起还不错的样子，我们直接上手操作一番，首先就是它离谱的文字识别，由于Kimi连复杂的数学字符都能识别，而中文反而显得简单一些了，就拿下面的图片来说，完全不在话下。

kimi推出视觉版o1，用视觉思考并解决问题

Kimi的识别结果

大家常用的PixPin等截图工具也是可以文字识别的，但是上半段识别就有问题了（直接识别不到），识别的正确率也有问题。

kimi推出视觉版o1，用视觉思考并解决问题

截图工具的识别

识别正确率啥的都好说，毕竟不算同类工具，有些差距都不令人意外，但Kimi不是死板的识别工具！它甚至能进行原图文字内容的修正和“事实检测”，真就“每个像素都分析到了”。

kimi推出视觉版o1，用视觉思考并解决问题

下框为Kimi改正的

kimi推出视觉版o1，用视觉思考并解决问题

下框为Kimi改正的

kimi推出视觉版o1，用视觉思考并解决问题

正确的立正姿势

这何尝不是对OCR工具的降维打击。

除了文字识别，对问题的解答能力也是有的。

先来玩一个简单的图片推理题目，在下图中找出规律，来选择正确的选项，这一题是公考行测图形推理例题，走你~

kimi推出视觉版o1，用视觉思考并解决问题

红框里的是答案，不发给Kimi

如果不接触类似问题的朋友，可能看到题目还有点懵，要想好一会，而Kimi对这个题目分析了一大串，每一步都详细给出了过程，最后给出了正确答案。

kimi推出视觉版o1，用视觉思考并解决问题

答案里提到的点：直线和曲线，图形是否封闭，Kimi也有相应的思考。

kimi推出视觉版o1，用视觉思考并解决问题

kimi推出视觉版o1，用视觉思考并解决问题

基础的推理难不住它，来试一下需要加入计算的内容。

kimi推出视觉版o1，用视觉思考并解决问题

Kimi的回答速度很快，结果也是正确的，而且它为了严谨，前后三次反复确认的自己的回答，思考了一下其他可能出错的地方。以后用来解题可以用来当做参考，看看自己是不是和 Kimi 一样的错误反思逻辑。

kimi推出视觉版o1，用视觉思考并解决问题

这类内容，对Kimi来说是比较简单的。

再来看看一个进阶的。

而Kimi用来做代码题目更是专业对口，在力扣上找了一个题目，直接截屏丢给Kimi。

kimi推出视觉版o1，用视觉思考并解决问题

kimi推出视觉版o1，用视觉思考并解决问题

关于这个题目的吐槽

kimi推出视觉版o1，用视觉思考并解决问题

kimi推出视觉版o1，用视觉思考并解决问题

Kimi的回答：

kimi推出视觉版o1，用视觉思考并解决问题

最后的结果正常通过检验，这下遇到不会的题，就可以让Kimi教你怎么做了，顺便学学它的思路，真人击败5%的提交就自黑“很强”了，而Kimi一上手就是77%。

kimi推出视觉版o1，用视觉思考并解决问题

除了拿来解题，日常遇到的各种表格，也可以交给Kimi分析。

kimi推出视觉版o1，用视觉思考并解决问题

像是上图这个问题大家不要认为太简单了，丢个其他AI，一问一个不吱声。

kimi推出视觉版o1，用视觉思考并解决问题

而这次的Kimi视觉思考版也是没有使用限制的，以后大家手里能转化成图片内容的数据，都可以交给Kimi解锁更多信息了。

从Kimi的更新来看，它更像是把一件事情做到优秀的水平之后，再去解锁新的技能，而不是做一大堆，一大堆都不好用，这就让人有些期待后续更强的产品，用来生成视频和操作软件的工具等等。

kimi推出视觉版o1，用视觉思考并解决问题

© 版权声明

文章版权归 AI分享圈所有，未经允许请勿转载。

相关文章

Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI

Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI

1年前

044.5K

对标 Cursor 的 AI编辑器 Trae 上手体验

对标 Cursor 的 AI编辑器 Trae 上手体验

10个月前

059.9K

新一代 AI 编程工具深度解读与 AutoDev Sketch 的创新实践

新一代 AI 编程工具深度解读与 AutoDev Sketch 的创新实践

1年前

045.6K

人工智能进课堂：从风险管理到教学赋能

人工智能进课堂：从风险管理到教学赋能

1年前

047.1K

暂无评论

您必须登录才能参与评论！

none

暂无评论...