Кими запускает визуальную версию o1 для визуального мышления и решения проблем

Новости ИИОпубликовано 8 месяцев назад Круг обмена ИИ
7K 00

Все используют инструменты искусственного интеллекта, и мы наблюдаем, как он развивается и растет шаг за шагом. В основном мы просто разговариваем с ним с помощью текста, и иногда Kernel задумывается о том, что было бы неплохо уметь хорошо думать о картинках.

После изучения множества ИИ я использовал Kimi и обнаружил, что его способности к рассуждениям могут быть впечатляющими.

В то время я задался вопросом, можно ли расширить его возможности до мультимодальных, когда отправка фотографии и видео позволит поразмыслить и в итоге дать достоверный ответ.

Я не ожидал, что Кими выпустит обновление, добавит великолепную функцию распознавания изображений, попробовал распознать текст - не ожидал даже сюрприза.

 

Умный помощник Kimi снова обновился! Вскоре после выхода математической версии, с которой я познакомил вас в прошлый раз, Kimi обновился и теперь работает с забавной и полезной моделью K1 из математической версии, и соответствующий продукт - Kimi - версия для ношения очков!

kimi推出视觉版o1,用视觉思考并解决问题

Его настоящее имя - Кими Visual Thinking Edition.

 

Эта модель способна распознавать сложные изображения, выполнять подробные "математические ответы и логические рассуждения", по ряду тестов превосходя модель o1 от OpenAI, а также очень сильна в распознавании рукописного контента и может распознавать фотографии, сделанные в различных сценариях.

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Выглядит он довольно неплохо, так что давайте перейдем непосредственно к делу. Первое, что стоит отметить, - это потрясающее распознавание текста: Kimi может распознавать даже сложные математические символы, а китайский язык немного проще, возьмите картинку ниже, это не вызывает сомнений.

 

kimi推出视觉版o1,用视觉思考并解决问题

Результаты идентификации Кими

 

Инструменты для снятия скриншотов, такие как PixPin, которыми пользуются все, также способны распознавать текст, но есть проблема с распознаванием верхней половины абзаца (она не распознается напрямую), а также проблема с корректностью распознавания.

kimi推出视觉版o1,用视觉思考并解决问题

Идентификация инструмента для снятия скриншотов

 

Можно, конечно, говорить о том, что процент распознавания правильный - в конце концов, это не совсем одинаковые инструменты, и некоторые различия не удивительны, - но Kimi - это не жесткий инструмент распознавания! Он даже корректирует и "проверяет на достоверность" текст исходного изображения, буквально "анализируя каждый пиксель".

kimi推出视觉版o1,用视觉思考并解决问题

Вставка ниже исправлена Кими

 

kimi推出视觉版o1,用视觉思考并解决问题

Вставка ниже исправлена Кими

 

kimi推出视觉版o1,用视觉思考并解决问题

Правильная осанка в вертикальном положении

 

Как это не является нисходящим ударом по инструментам OCR.

Помимо распознавания текста, здесь есть возможность отвечать на вопросы.

Прежде всего, давайте играть простые вопросы рассуждения картины, найти шаблон в картине ниже, чтобы выбрать правильный вариант, этот вопрос является государственным экзаменом тест графические рассуждения примеры, идти вы ~

kimi推出视觉版o1,用视觉思考并解决问题

Ответы в красной рамке не для Кими.

 

Если вы не сталкивались с подобными вопросами, то, увидев вопрос, вы можете немного растеряться и задуматься, в то время как Кими проанализировал вопрос целую кучу раз, подробно описал процесс на каждом этапе и в итоге дал правильный ответ.

 

kimi推出视觉版o1,用视觉思考并解决问题

 

В ответе упоминаются следующие моменты: прямые и кривые линии, замкнутый или нет график, а также мысли Кими по этому поводу.

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Базовые рассуждения даются ему с трудом, приходите и попробуйте, что нужно добавить к расчетам.

kimi推出视觉版o1,用视觉思考并解决问题

 

Ответ Кими был быстрым и правильным, и его повторили три раза, чтобы подтвердить свой ответ и подумать о других возможных ошибках. Это можно использовать как справочник для решения задач в будущем, чтобы узнать, похожи ли вы на Кими Все та же ошибочная рефлексивная логика.

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Это тот тип контента, который проще для Кими.

Давайте снова рассмотрим продвинутый вариант.

А Кими привык делать код темы еще более профессиональными аналогами, в форсе кнопкой найти тему, прямо скриншот кинул Кими.

 

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Троллинг на эту тему

kimi推出视觉版o1,用视觉思考并解决问题

 

kimi推出视觉版o1,用视觉思考并解决问题

 

Ответ Кими:

kimi推出视觉版o1,用视觉思考并解决问题

 

Конечный результат нормальный, через тест, это столкновение не будет в состоянии задать вопрос, вы можете позволить Кими научить вас, как это сделать, кстати, узнать его идеи, реальные люди бьют 5% подачи на самовзлом "очень сильный", и Кими руку 77%.

kimi推出视觉版o1,用视觉思考并解决问题

 

Помимо решения проблем, Кими может анализировать различные формы, с которыми она сталкивается ежедневно.

kimi推出视觉版o1,用视觉思考并解决问题

 

Как и в вопросе выше, не стоит думать, что слишком легко вбросить еще один ИИ и не пищать, когда тебя спрашивают.

kimi推出视觉版o1,用视觉思考并解决问题

 

И на этот раз Kimi Visual Thinking Edition также без использования ограничений, в будущем каждый, у кого в руках данные, которые можно преобразовать в контент изображения, может быть предоставлен Kimi, чтобы раскрыть больше информации.

Если посмотреть на обновления Кими, то это больше похоже на открытие новых навыков после выполнения одной вещи на отличном уровне, чем на выполнение целой кучи вещей, и целая куча из них работает не очень хорошо, что оставляет некоторое ожидание более сильных продуктов, инструментов для создания видео, манипуляций с программным обеспечением и так далее.

kimi推出视觉版o1,用视觉思考并解决问题
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...