kimi lanza la versión visual de o1 para pensar y resolver problemas visualmente

Todo el mundo utiliza herramientas de IA, y hemos visto cómo la IA evolucionaba y crecía paso a paso. La mayoría de las veces nos limitábamos a hablarles con texto, y hay momentos en los que Kernel se pregunta cuándo estaría bien poder pensar bien en imágenes.

Después de investigar un montón de IA, utilicé Kimi más tarde y descubrí que su capacidad de razonamiento puede ser impresionante.

En aquel momento, me pregunté si sus capacidades podrían ampliarse para ser multimodales, donde el envío de una foto y un vídeo permitiera razonar de forma reflexiva y dar finalmente una respuesta fiable.

No esperaba ah, Kimi retrocedió una actualización, añadió una capacidad de reconocimiento de imagen excelente, lo probó no esperaba incluso sorpresa de reconocimiento de texto.

 

¡El Asistente Inteligente Kimi se ha actualizado de nuevo! Poco después del lanzamiento de la versión de Matemáticas que os presenté la última vez, Kimi se ha actualizado y se ha puesto en marcha con el divertido y útil modelo K1 de la versión de Matemáticas, y el producto correspondiente es Kimi - ¡Versión con gafas!

kimi推出视觉版o1,用视觉思考并解决问题

Su verdadero nombre es Kimi Visual Thinking Edition.

 

Este modelo puede reconocer el contenido de imágenes complejas, llevar a cabo "respuestas matemáticas y razonamientos lógicos" detallados, una serie de pruebas por encima del modelo o1 de OpenAI, y la capacidad de reconocer el contenido escrito a mano también es muy fuerte, y puede reconocer fotografías tomadas en una variedad de escenarios.

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Tiene muy buena pinta, así que vamos a ello. Lo primero es su escandaloso reconocimiento de texto, ya que Kimi puede reconocer incluso caracteres matemáticos complejos, mientras que el chino es un poco más sencillo, fíjate en la imagen de abajo, no tiene desperdicio.

 

kimi推出视觉版o1,用视觉思考并解决问题

Resultados de la identificación de Kimi

 

Las herramientas de captura de pantalla como PixPin, que todo el mundo utiliza habitualmente, también son capaces de reconocer texto, pero hay un problema con el reconocimiento de la mitad superior del párrafo (no se reconoce directamente), y hay un problema con la corrección del reconocimiento.

kimi推出视觉版o1,用视觉思考并解决问题

Identificación de la herramienta de captura de pantalla

 

Está muy bien decir que la tasa de reconocimiento es correcta -después de todo, no es exactamente el mismo tipo de herramienta, y algunas de las diferencias no son sorprendentes-, ¡pero Kimi no es una herramienta de reconocimiento rígida! Incluso corrige y "verifica" el texto de la imagen original, literalmente "analizando cada píxel".

kimi推出视觉版o1,用视觉思考并解决问题

El recuadro de abajo está corregido por Kimi

 

kimi推出视觉版o1,用视觉思考并解决问题

El recuadro de abajo está corregido por Kimi

 

kimi推出视觉版o1,用视觉思考并解决问题

Postura correcta en posición erguida

 

¿Cómo no va a ser esto un golpe descendente para las herramientas de OCR?

Además del reconocimiento de texto, existe la posibilidad de responder a preguntas.

En primer lugar, vamos a jugar un simple cuadro de preguntas de razonamiento, encontrar el patrón en la imagen de abajo para elegir la opción correcta, esta cuestión es la prueba de examen público ejemplos de razonamiento gráfico, vaya usted ~

kimi推出视觉版o1,用视觉思考并解决问题

Las respuestas del recuadro rojo no son para Kimi.

 

Si no estás expuesto a preguntas similares, puede que te quedes un poco confuso al ver la pregunta y tengas que pensar un rato, mientras que Kimi analizó la pregunta un montón de veces, dio el proceso detallado de cada paso y finalmente dio la respuesta correcta.

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Los puntos mencionados en la respuesta: rectas y curvas, si el gráfico es cerrado o no, y el pensamiento de Kimi en consecuencia.

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

El razonamiento básico es difícil para él, ven y prueba lo que hay que añadir a los cálculos.

kimi推出视觉版o1,用视觉思考并解决问题

 

La respuesta de Kimi fue rápida y correcta, y se repitió tres veces para confirmar su respuesta y pensar en otros posibles errores. Puede servir de referencia para resolver problemas en el futuro, para ver si eres igual que el Kimi La misma lógica reflexiva defectuosa.

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Este es el tipo de contenido que resulta más fácil para Kimi.

Veamos de nuevo uno avanzado.

Y Kimi solía hacer el tema de código es más profesional contraparte, en el botón de fuerza para encontrar un tema, directamente captura de pantalla lanzado a Kimi.

 

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Trolling sobre este tema

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

La respuesta de Kimi:

kimi推出视觉版o1,用视觉思考并解决问题

 

El resultado final es normal a través de la prueba, este encuentro no será capaz de cuestionar, puede dejar que Kimi le enseñe cómo hacerlo, por cierto, aprender sus ideas, la gente real vencer a la sumisión 5% en el auto-hacking "muy fuerte", y Kimi una mano es 77%.

kimi推出视觉版o1,用视觉思考并解决问题

 

Además de resolver problemas, Kimi también puede analizar las diversas formas que encuentra a diario.

kimi推出视觉版o1,用视觉思考并解决问题

 

Al igual que la pregunta anterior no hay que pensar que es muy fácil meter otra IA y no chirriar cuando te preguntan.

kimi推出视觉版o1,用视觉思考并解决问题

 

Y esta vez, Kimi Visual Thinking Edition es también sin el uso de limitaciones, en el futuro, todo el mundo en manos de los datos que se pueden convertir en contenido de la imagen, se puede dar a Kimi para desbloquear más información.

Viendo las actualizaciones de Kimi, es más como desbloquear nuevas habilidades después de hacer una cosa a un nivel excelente, en lugar de hacer un montón de ellas y que un montón de ellas no funcionen muy bien, lo que deja cierta expectación para productos más fuertes que vengan después, herramientas para generar vídeos y manipular el software, etc.

kimi推出视觉版o1,用视觉思考并解决问题
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...