모두가 AI 도구를 사용하고 있고, 저희도 AI가 한 단계씩 진화하고 성장하는 것을 지켜봐 왔습니다. 대부분 텍스트로만 대화했는데, 커널이 그림으로 잘 생각할 수 있으면 어떨까 하는 생각이 들 때가 있습니다.
여러 인공지능을 연구한 후 나중에 Kimi를 사용해 본 결과, 추론 능력이 인상적이라는 것을 알게 되었습니다.
당시 저는 사진과 동영상을 보내면 반성적 추론이 가능하고 최종적으로 신뢰할 수 있는 답을 얻을 수 있는 멀티모달로 기능을 확장할 수 있지 않을까 생각했습니다.
저는 예상하지 못했는데, Kimi가 업데이트를 통해 뛰어난 이미지 인식 기능을 추가했고, 사용해 보니 텍스트 인식 기능까지 놀랄 줄은 몰랐습니다.
키미 스마트 어시스턴트가 다시 업데이트되었습니다! 지난번에 소개해 드렸던 수학 버전이 출시된 지 얼마 지나지 않아, 수학 버전에서 재미있고 유용한 K1 모델이 업그레이드되어 출시되었는데요, 해당 제품은 바로 키미 - 안경착용 버전입니다!

그의 본명은 키미 비주얼 씽킹 에디션입니다.
이 모델은 복잡한 그림 콘텐츠를 인식할 수 있고, OpenAI의 o1 모델에 비해 상세한 '수학적 답변 및 논리적 추론'을 수행할 수 있으며, 손으로 쓴 콘텐츠를 인식하는 능력도 매우 강하고 다양한 시나리오에서 촬영한 사진을 인식할 수 있습니다.


꽤 괜찮아 보이니 바로 본론으로 들어가 보겠습니다. 첫 번째는 놀라운 텍스트 인식 기능입니다. Kimi는 복잡한 수학 문자도 인식할 수 있지만 중국어는 조금 더 간단합니다 아래 사진을 보면 알 수 있습니다.

키미의 신원 확인 결과
누구나 일반적으로 사용하는 PixPin과 같은 스크린샷 도구도 텍스트 인식이 가능하지만 문단 위쪽의 인식에 문제가 있고(직접 인식되지 않음), 인식의 정확성에 문제가 있습니다.

스크린샷 도구 식별
인식률이 정확하다고 말하는 것도 좋지만 - 결국 같은 종류의 도구가 아니며 일부 차이점은 놀랍지 않습니다 - Kimi는 엄격한 인식 도구가 아닙니다! 심지어 원본 이미지의 텍스트를 수정하고 "사실 확인"하여 말 그대로 "모든 픽셀을 분석"합니다.

아래 상자는 Kimi가 수정한 것입니다.

아래 상자는 Kimi가 수정한 것입니다.

똑바로 선 자세의 올바른 자세
이것이 어떻게 OCR 도구에 대한 타격이 아닐 수 있을까요?
텍스트 인식 외에도 질문에 답하는 기능도 있습니다.
먼저 간단한 그림 추론 문제를 플레이하고 다음 그림에서 패턴을 찾아 올바른 옵션을 선택해 보겠습니다.이 문제는 공개 시험 시험 그래픽 추론 예제입니다.

빨간색 상자 안의 답은 키미에게 해당되지 않습니다.
비슷한 문제를 접해본 적이 없다면 문제를 보고 조금 당황해서 한참을 생각해야 하는 반면, 키미는 문제를 여러 번 분석하고 각 단계별로 과정을 상세히 설명한 후 최종적으로 정답을 제시했습니다.

답변에 언급된 포인트: 직선과 곡선, 그래프의 닫힘 여부, 그리고 그에 따른 키미의 생각.


기본적인 추론은 어렵고, 계산에 추가해야 하는 것을 시도해 보세요.

키미의 답은 빠르고 정확하며, 엄격함을 위해 틀릴 수 있는 다른 부분을 생각하면서 세 번이나 답을 다시 확인했습니다. 앞으로 문제를 풀 때 참고할 수 있으며, 다음과 같이 자신이 같은지 확인할 수 있습니다. Kimi 동일한 결함이 있는 반사 논리입니다.

키미에게 더 쉬운 콘텐츠 유형입니다.
고급 기능을 다시 살펴 보겠습니다.
그리고 Kimi는 코드 주제가 훨씬 더 전문적인 주제를 찾기 위해 강제 버튼에서 Kimi에게 직접 스크린 샷을 던지는 데 사용되었습니다.


이 주제에 대한 트롤링


키미의 답변입니다:

최종 결과는 테스트를 통해 정상이며,이 만남은 질문 할 수 없으며, Kimi가 어떻게하는지 가르쳐 줄 수 있으며, 그런데 아이디어를 배우고, 실제 사람들은 자체 해킹 "매우 강한"에서 5% 제출물을 이기고, Kimi는 손이 77%입니다.

키미는 문제를 푸는 것 외에도 매일 마주치는 다양한 양식을 분석할 수 있습니다.

위의 질문처럼 다른 인공지능을 투입하는 것이 너무 쉽다고 생각해서는 안 되며, 질문을 받았을 때 삐걱거리지 않아야 합니다.

그리고 이번 키미 비주얼 씽킹 에디션도 제한 없이, 앞으로는 이미지 콘텐츠로 변환할 수 있는 데이터를 보유한 모든 사람이 키미에게 주어져 더 많은 정보를 얻을 수 있습니다.
키미의 업데이트를 보면, 한 가지를 훌륭하게 해내고 나서 새로운 기술을 잠금 해제하는 것이 아니라, 여러 가지를 해보고 나서 제대로 작동하지 않아서 더 강력한 제품, 동영상 생성 및 소프트웨어 조작 도구 등에 대한 기대감을 남기는 방식에 가깝습니다.

© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...