Кими запускает визуальную версию o1 для визуального мышления и решения проблем

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

57.9K 00

Все используют инструменты искусственного интеллекта, и мы наблюдаем, как он развивается и растет шаг за шагом. В основном мы просто разговариваем с ним с помощью текста, и иногда Kernel задумывается о том, что было бы неплохо уметь хорошо думать о картинках.

После изучения множества ИИ я использовал Kimi и обнаружил, что его способности к рассуждениям могут быть впечатляющими.

В то время я задался вопросом, можно ли расширить его возможности до мультимодальных, когда отправка фотографии и видео позволит поразмыслить и в итоге дать достоверный ответ.

Я не ожидал, что Кими выпустит обновление, добавит великолепную функцию распознавания изображений, попробовал распознать текст - не ожидал даже сюрприза.

Умный помощник Kimi снова обновился! Вскоре после выхода математической версии, с которой я познакомил вас в прошлый раз, Kimi обновился и теперь работает с забавной и полезной моделью K1 из математической версии, и соответствующий продукт - Kimi - версия для ношения очков!

Его настоящее имя - Кими Visual Thinking Edition.

Эта модель способна распознавать сложные изображения, выполнять подробные "математические ответы и логические рассуждения", по ряду тестов превосходя модель o1 от OpenAI, а также очень сильна в распознавании рукописного контента и может распознавать фотографии, сделанные в различных сценариях.

Выглядит он довольно неплохо, так что давайте перейдем непосредственно к делу. Первое, что стоит отметить, - это потрясающее распознавание текста: Kimi может распознавать даже сложные математические символы, а китайский язык немного проще, возьмите картинку ниже, это не вызывает сомнений.

Результаты идентификации Кими

Инструменты для снятия скриншотов, такие как PixPin, которыми пользуются все, также способны распознавать текст, но есть проблема с распознаванием верхней половины абзаца (она не распознается напрямую), а также проблема с корректностью распознавания.

Идентификация инструмента для снятия скриншотов

Можно, конечно, говорить о том, что процент распознавания правильный - в конце концов, это не совсем одинаковые инструменты, и некоторые различия не удивительны, - но Kimi - это не жесткий инструмент распознавания! Он даже корректирует и "проверяет на достоверность" текст исходного изображения, буквально "анализируя каждый пиксель".

Вставка ниже исправлена Кими

Правильная осанка в вертикальном положении

Как это не является нисходящим ударом по инструментам OCR.

Помимо распознавания текста, здесь есть возможность отвечать на вопросы.

Прежде всего, давайте играть простые вопросы рассуждения картины, найти шаблон в картине ниже, чтобы выбрать правильный вариант, этот вопрос является государственным экзаменом тест графические рассуждения примеры, идти вы ~

Ответы в красной рамке не для Кими.

Если вы не сталкивались с подобными вопросами, то, увидев вопрос, вы можете немного растеряться и задуматься, в то время как Кими проанализировал вопрос целую кучу раз, подробно описал процесс на каждом этапе и в итоге дал правильный ответ.

В ответе упоминаются следующие моменты: прямые и кривые линии, замкнутый или нет график, а также мысли Кими по этому поводу.

Базовые рассуждения даются ему с трудом, приходите и попробуйте, что нужно добавить к расчетам.

Ответ Кими был быстрым и правильным, и его повторили три раза, чтобы подтвердить свой ответ и подумать о других возможных ошибках. Это можно использовать как справочник для решения задач в будущем, чтобы узнать, похожи ли вы на Кими Все та же ошибочная рефлексивная логика.

Это тот тип контента, который проще для Кими.

Давайте снова рассмотрим продвинутый вариант.

А Кими привык делать код темы еще более профессиональными аналогами, в форсе кнопкой найти тему, прямо скриншот кинул Кими.

Троллинг на эту тему

Ответ Кими:

Конечный результат нормальный, через тест, это столкновение не будет в состоянии задать вопрос, вы можете позволить Кими научить вас, как это сделать, кстати, узнать его идеи, реальные люди бьют 5% подачи на самовзлом "очень сильный", и Кими руку 77%.

Помимо решения проблем, Кими может анализировать различные формы, с которыми она сталкивается ежедневно.

Как и в вопросе выше, не стоит думать, что слишком легко вбросить еще один ИИ и не пищать, когда тебя спрашивают.

И на этот раз Kimi Visual Thinking Edition также без использования ограничений, в будущем каждый, у кого в руках данные, которые можно преобразовать в контент изображения, может быть предоставлен Kimi, чтобы раскрыть больше информации.

Если посмотреть на обновления Кими, то это больше похоже на открытие новых навыков после выполнения одной вещи на отличном уровне, чем на выполнение целой кучи вещей, и целая куча из них работает не очень хорошо, что оставляет некоторое ожидание более сильных продуктов, инструментов для создания видео, манипуляций с программным обеспечением и так далее.