a kimi lança a versão visual do o1 para pensar e resolver problemas visualmente

Notícias sobre IAPublicado há 9 meses Círculo de compartilhamento de IA

11.4K 00

Todos estão usando ferramentas de IA, e observamos a evolução e o crescimento da IA passo a passo. Na maioria das vezes, costumávamos apenas conversar com eles por meio de texto, e há momentos em que o Kernel se pergunta quando seria bom poder pensar bem sobre imagens.

Depois de pesquisar vários tipos de IA, usei o Kimi mais tarde e descobri que seus recursos de raciocínio podem ser impressionantes.

Na época, eu me perguntava se seus recursos poderiam ser ampliados para serem multimodais, onde o envio de uma foto e um vídeo permitiria um raciocínio reflexivo e, finalmente, daria uma resposta confiável.

Eu não esperava ah, Kimi fez uma atualização, adicionou uma excelente capacidade de reconhecimento de imagem, experimentou e não esperava nem mesmo a surpresa do reconhecimento de texto.

O Kimi Smart Assistant foi atualizado novamente! Pouco tempo depois do lançamento da versão de matemática que apresentei a vocês da última vez, o Kimi foi atualizado e entrou em operação com o divertido e útil modelo K1 da versão de matemática, e o produto correspondente é o Kimi - versão com óculos!

Seu nome verdadeiro é Kimi Visual Thinking Edition.

Esse modelo pode reconhecer conteúdo de imagens complexas, realizar "respostas matemáticas e raciocínio lógico" detalhados, vários testes em relação ao modelo o1 da OpenAI, e a capacidade de reconhecer conteúdo manuscrito também é muito forte, além de reconhecer fotos tiradas em uma variedade de cenários.

A primeira coisa é o seu incrível reconhecimento de texto, já que o Kimi pode reconhecer até mesmo caracteres matemáticos complexos, enquanto o chinês é um pouco mais simples.

Resultados da identificação de Kimi

Ferramentas de captura de tela como o PixPin, que são comumente usadas por todos, também são capazes de reconhecer texto, mas há um problema com o reconhecimento da metade superior do parágrafo (ela não é reconhecida diretamente) e há um problema com a correção do reconhecimento.

Identificação da ferramenta de captura de tela

É muito bom dizer que a taxa de reconhecimento está correta - afinal de contas, não é exatamente o mesmo tipo de ferramenta, e algumas das diferenças não são surpreendentes - mas o Kimi não é uma ferramenta de reconhecimento rígida! Ele até corrige e "verifica os fatos" do texto da imagem original, literalmente "analisando cada pixel".

A caixa abaixo foi corrigida por Kimi

Postura correta na posição vertical

Como isso não é um golpe fatal para as ferramentas de OCR?

Além do reconhecimento de texto, há a capacidade de responder a perguntas.

Antes de mais nada, vamos fazer uma pergunta simples de raciocínio gráfico. Encontre o padrão na imagem abaixo para escolher a opção correta.

As respostas na caixa vermelha não são para Kimi.

Se você não estiver exposto a perguntas semelhantes, talvez fique um pouco confuso ao ver a pergunta e tenha que pensar um pouco, enquanto Kimi analisou a pergunta várias vezes, deu o processo em detalhes para cada etapa e, finalmente, deu a resposta correta.

Os pontos mencionados na resposta: linhas retas e curvas, se o gráfico é fechado ou não, e os pensamentos de Kimi a esse respeito.

O raciocínio básico é difícil para ele, venha e experimente o que precisa ser adicionado aos cálculos.

A resposta de Kimi foi rápida e correta, e foi repetida três vezes para confirmar sua resposta e pensar em outros possíveis erros. Ele pode ser usado como referência para resolver problemas no futuro, para ver se você é igual a Kimi A mesma lógica reflexiva defeituosa.

Esse é o tipo de conteúdo que é mais fácil para Kimi.

Vamos dar uma olhada em um avançado novamente.

E Kimi costumava fazer o tópico de código de contrapartes ainda mais profissionais, no botão de força para encontrar um tópico, diretamente a captura de tela lançada para Kimi.

Trollagem sobre este tópico

Resposta de Kimi:

O resultado final é normal através do teste, esse encontro não poderá ser questionado, você pode deixar que Kimi lhe ensine como fazê-lo. A propósito, aprenda suas idéias, pessoas reais venceram a submissão 5% no auto-hacking "muito forte", e a mão de Kimi é 77%.

Além de resolver problemas, Kimi também pode analisar as várias formas que encontra diariamente.

Assim como na pergunta acima, não se deve pensar que é muito fácil lançar outra IA e não chiar quando perguntado.

E, desta vez, o Kimi Visual Thinking Edition também não tem limitações. No futuro, todos os dados que puderem ser convertidos em conteúdo de imagem poderão ser fornecidos ao Kimi para desbloquear mais informações.

Observando as atualizações de Kimi, é mais como desbloquear novas habilidades depois de fazer uma coisa em um nível excelente, em vez de fazer um monte delas e um monte delas não funcionar muito bem, o que deixa uma certa expectativa em relação a produtos mais fortes, ferramentas para gerar vídeos e manipular o software, e assim por diante.