Inflection-2.5: знакомство с лучшими в мире персональными ИИ

46.8K 00

Наша миссия в Inflection - создать персональный ИИ для каждого, и в мае прошлого года мы запустили [...].Pi] - сопереживающий, помогающий и безопасный персональный ИИ.В ноябре мы объявили о запуске новой основной базовой модели [...Размышление-2], которая на тот момент была второй лучшей крупномасштабной языковой моделью в мире.

Теперь мы добавляем IQ (коэффициент интеллекта) к исключительному EQ (коэффициенту эмоциональности) Пи.

Мы запустили Inflection-2.5, нашу обновленную модель собственного производства, которая не уступает ведущим мировым крупномасштабным языковым моделям, таким как GPT-4 и Gemini. Она сочетает в себе необработанную мощь с нашей уникальной отзывчивостью и тонкой настройкой. Начиная с сегодняшнего дня, Inflection-2.5 будет доступна в [...pi.ai]( ), [iOS], [Android (операционная система)] или наш новый [рабочий стол] приложение для всех пользователей Pi.

Мы достигли этого рубежа с невероятной эффективностью: Inflection-2.5 имеет почти такую же производительность, как GPT-4, но использует для обучения примерно такой же объем вычислений, как и GPT-4.40%.

Мы добились особых успехов в таких областях IQ, как кодирование и математика. Это нашло отражение в конкретных улучшениях ключевых отраслевых показателей, благодаря чему Pi остается на переднем крае технологий.Теперь Pi также включает в себяВозможности веб-поиска в режиме реального времени мирового класса:: Обеспечьте пользователям доступ к высококачественным обновлениям и актуальной информации.

Мы развернули Inflection-2.5 для наших пользователей, и им очень нравится Pi! Мы наблюдаем огромный рост настроения, вовлеченности и удержания пользователей, что ускоряет органический рост пользователей.

У нас миллион активных пользователей в день, шесть миллионов активных пользователей в месяц, которые обменялись с Pi более чем четырьмя миллиардами сообщений.

Средняя продолжительность диалога с Пи составляет33 минуты.Каждый десятый разговор длится более часа в день. Из всех людей, которые общаются с Пи в течение недели, примерно60%Мы снова будем общаться с вами на следующей неделе, и мы наблюдаем более высокую ежемесячную привязанность, чем наши основные конкуренты.

Благодаря возможностям Inflection-2.5 пользователи могут обсуждать с Pi самые разные темы: обсуждать текущие события, получать рекомендации по местным ресторанам, готовиться к экзамену по биологии, составлять бизнес-план, кодить, готовиться к важному разговору или просто весело проводить время за обсуждением хобби. Нам не терпится показать вам, на что способен Pi.

Технические результаты

Ниже мы приводим результаты ряда ключевых отраслевых эталонных тестов. Для простоты мы сравниваем Inflection-2.5 с GPT-4. Эти результаты показывают, что Pi теперь обладает возможностями IQ, сопоставимыми с признанными лидерами отрасли. Из-за различий в форматах отчетности мы обращаем внимание на формат, используемый для оценки.

Inflection-1 использовал около 41 TP3T обучающих операций с плавающей запятой (FLOP) для GPT-4, и средняя производительность GPT-4 составила около 721 TP3T в ряде задач, ориентированных на IQ. Inflection-2.5, на котором теперь работает Pi, достигает средней производительности более 941 TP3T для GPT-4, несмотря на использование всего 401 TP3T обучающих FLOP. Мы увидели значительный прирост производительности в целом ряде областей, причем наибольший прирост был достигнут в области STEM.

По сравнению с Inflection-1, Inflection-2.5 значительно продвинулся в бенчмарке MMLU, разнообразном бенчмарке, который измеряет производительность на широком диапазоне задач от школьного до профессионального уровня сложности. Мы также оценили чрезвычайно сложный эталон GPQA Diamond - эталон экспертного уровня.

Мы также включаем результаты двух различных экзаменов STEM: венгерского экзамена по математике и вступительного экзамена по физике GRE - Physics Graduate Entrance Exam.

Для венгерской математики мы используем [здесьДля облегчения повторения приводится небольшое количество примеров подсказок и форматов. В Inflection-2.5 используется только первый пример в подсказках.

Мы также...Опубликовано.] опубликовали обработанные версии физических экзаменов GRE (GR8677, GR9277, GR9677, GR0177) и сравнили результаты Inflection 2.5 на первом экзамене с GPT-4. Мы обнаружили, что Inflection-2.5 достигает 85-го процентиля среди людей, сдающих тесты, в MAJ@8 и почти максимального балла в MAJ@32. Некоторые вопросы с изображениями были исключены из приведенных ниже результатов, чтобы облегчить широкое сравнение. В любом случае, мы опубликовали все вопросы.

На BIG-Bench-Hard, подмножестве задач BIG-Bench, которые сложны для больших языковых моделей, Inflection-2.5 имеет более 101 TP3T улучшения по сравнению с Inflection-1 и не уступает самым мощным моделям.

Мы все еще здесь.MT-BenchМы оценили нашу модель на MT-Bench, широко известной в сообществе таблице лидеров для сравнения моделей. Однако после оценки на MT-Bench мы поняли, что почти четверть примеров в категориях "Рассуждения", "Математика" и "Кодирование" содержали неверные эталонные решения или ошибочные предпосылки задачи. Поэтому мы исправили эти примеры и опубликовали их в [...здесь] выпустили исправленную версию набора данных.

Оценивая эти два подмножества, мы обнаружили, что в правильно скорректированной версии наша модель работает более согласованно с ожиданиями, основанными на других эталонных тестах.

Inflection-2.5 предлагает особые улучшения по сравнению с Inflection-1 с точки зрения математических и кодовых характеристик, как показано в таблице ниже.

В бенчмарках MBPP+ и HumanEval+ мы видим значительное улучшение по сравнению с Inflection-1.

Для MBPP мы сообщаем результаты, полученные в [Кодер DeepSeek] для значений GPT-4. Для HumanEval мы использовали значение [EvalPlus] результаты в таблице лидеров (GPT-4 в мае 2023 года).

Мы также оценили производительность Inflection-2.5 в HellaSwag и ARC-C, двух обычных с точки зрения здравого смысла и науки бенчмарках, о которых сообщают многие модели. В обоих случаях мы увидели отличную производительность в этих почти насыщенных бенчмарках.

Все приведенные выше оценки относятся к модели, на которой сейчас работает Pi, но мы отмечаем, что пользовательский опыт может немного отличаться из-за влияния веб-поиска (ни в одном из приведенных выше эталонов не использовался веб-поиск), структуры небольшого количества примеров подсказок и других различий в производстве.

Короче говоря, Inflection-2.5 сохранил уникальную, доступную индивидуальность Pi и исключительные стандарты безопасности, став при этом более интимной моделью во всех отношениях.

Мы благодарны нашим партнерам из Azure и CoreWeave за их поддержку, благодаря которой современная языковая модель, лежащая в основе Pi, стала доступна миллионам пользователей по всему миру.