AI个人学习
和实操指南

kimi推出视觉版o1,用视觉思考并解决问题

大家都在用AI工具,我们看着AI一步一步发展壮大,以前大部分是我们仅仅用文字跟它们聊天,有些时候果核就会在想:要是什么时候能对图片进行很好的思考就好了。

研究了一堆AI之后,后面用起Kimi,发现它的推理功能可以说是让人印象深刻。


当时就在想它的能力能不能扩展成多模态的,发一张图片和一段视频就能进行反思推理,最后给出一个靠谱的答案。

没想到啊,Kimi反手就是一个更新,加上了一个超强的图片识别能力,试了一下没想到连文字识别都有惊喜。

 

Kimi智能助手又更新了!距离上次给大家介绍的数学版发布过去不久,Kimi现在从数学版的基础上,升级并上线了好玩实用的K1模型,对应产品是Kimi——戴眼镜版!

真名「Kimi视觉思考版」

 

这个模型能识别复杂的图片内容,进行详细的“数理化解答与逻辑推理”,多项测试超过了OpenAI的o1模型,而且识别手写内容的能力也很强,能识别各种场景拍的图。

 

 

看起还不错的样子,我们直接上手操作一番,首先就是它离谱的文字识别,由于Kimi连复杂的数学字符都能识别,而中文反而显得简单一些了,就拿下面的图片来说,完全不在话下。

 

Kimi的识别结果

 

大家常用的PixPin等截图工具也是可以文字识别的,但是上半段识别就有问题了(直接识别不到),识别的正确率也有问题。

截图工具的识别

 

识别正确率啥的都好说,毕竟不算同类工具,有些差距都不令人意外,但Kimi不是死板的识别工具!它甚至能进行原图文字内容的修正和“事实检测”,真就“每个像素都分析到了”。

下框为Kimi改正的

 

下框为Kimi改正的

 

正确的立正姿势

 

这何尝不是对OCR工具的降维打击。

除了文字识别,对问题的解答能力也是有的。

先来玩一个简单的图片推理题目,在下图中找出规律,来选择正确的选项,这一题是公考行测图形推理例题,走你~

红框里的是答案,不发给Kimi

 

如果不接触类似问题的朋友,可能看到题目还有点懵,要想好一会,而Kimi对这个题目分析了一大串,每一步都详细给出了过程,最后给出了正确答案。

 

 

答案里提到的点:直线和曲线,图形是否封闭,Kimi也有相应的思考。

 

 

基础的推理难不住它,来试一下需要加入计算的内容。

 

Kimi的回答速度很快,结果也是正确的,而且它为了严谨,前后三次反复确认的自己的回答,思考了一下其他可能出错的地方。以后用来解题可以用来当做参考,看看自己是不是和 Kimi 一样的错误反思逻辑。

 

 

这类内容,对Kimi来说是比较简单的。

再来看看一个进阶的。

而Kimi用来做代码题目更是专业对口,在力扣上找了一个题目,直接截屏丢给Kimi。

 

 

 

关于这个题目的吐槽

 

 

Kimi的回答:

 

最后的结果正常通过检验,这下遇到不会的题,就可以让Kimi教你怎么做了,顺便学学它的思路,真人击败5%的提交就自黑“很强”了,而Kimi一上手就是77%。

 

除了拿来解题,日常遇到的各种表格,也可以交给Kimi分析。

 

像是上图这个问题大家不要认为太简单了,丢个其他AI,一问一个不吱声。

 

而这次的Kimi视觉思考版也是没有使用限制的,以后大家手里能转化成图片内容的数据,都可以交给Kimi解锁更多信息了。

从Kimi的更新来看,它更像是把一件事情做到优秀的水平之后,再去解锁新的技能,而不是做一大堆,一大堆都不好用,这就让人有些期待后续更强的产品,用来生成视频和操作软件的工具等等。

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » kimi推出视觉版o1,用视觉思考并解决问题

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文