Inflection-2.5: знакомство с лучшими в мире персональными ИИ

Новости ИИОбновлено 1 год назад Круг обмена ИИ
7.2K 00
Inflection-2.5:认识世界上最好的个人AI

 

Наша миссия в Inflection - создать персональный ИИ для каждого, и в мае прошлого года мы запустили [...].Pi] - сопереживающий, помогающий и безопасный персональный ИИ.В ноябре мы объявили о запуске новой основной базовой модели [...Размышление-2], которая на тот момент была второй лучшей крупномасштабной языковой моделью в мире.

 

Теперь мы добавляем IQ (коэффициент интеллекта) к исключительному EQ (коэффициенту эмоциональности) Пи.

 

Мы запустили Inflection-2.5, нашу обновленную модель собственного производства, которая не уступает ведущим мировым крупномасштабным языковым моделям, таким как GPT-4 и Gemini. Она сочетает в себе необработанную мощь с нашей уникальной отзывчивостью и тонкой настройкой. Начиная с сегодняшнего дня, Inflection-2.5 будет доступна в [...pi.ai]( ), [iOS], [Android (операционная система)] или наш новый [рабочий стол] приложение для всех пользователей Pi.

 

Мы достигли этого рубежа с невероятной эффективностью: Inflection-2.5 имеет почти такую же производительность, как GPT-4, но использует для обучения примерно такой же объем вычислений, как и GPT-4.40%.

 

Мы добились особых успехов в таких областях IQ, как кодирование и математика. Это нашло отражение в конкретных улучшениях ключевых отраслевых показателей, благодаря чему Pi остается на переднем крае технологий.Теперь Pi также включает в себяВозможности веб-поиска в режиме реального времени мирового класса:: Обеспечьте пользователям доступ к высококачественным обновлениям и актуальной информации.

 

Мы развернули Inflection-2.5 для наших пользователей, и им очень нравится Pi! Мы наблюдаем огромный рост настроения, вовлеченности и удержания пользователей, что ускоряет органический рост пользователей.

 

У нас миллион активных пользователей в день, шесть миллионов активных пользователей в месяц, которые обменялись с Pi более чем четырьмя миллиардами сообщений.

 

Средняя продолжительность диалога с Пи составляет33 минуты.Каждый десятый разговор длится более часа в день. Из всех людей, которые общаются с Пи в течение недели, примерно60%Мы снова будем общаться с вами на следующей неделе, и мы наблюдаем более высокую ежемесячную привязанность, чем наши основные конкуренты.

 

Inflection-2.5:认识世界上最好的个人AI

 

Благодаря возможностям Inflection-2.5 пользователи могут обсуждать с Pi самые разные темы: обсуждать текущие события, получать рекомендации по местным ресторанам, готовиться к экзамену по биологии, составлять бизнес-план, кодить, готовиться к важному разговору или просто весело проводить время за обсуждением хобби. Нам не терпится показать вам, на что способен Pi.

 

Технические результаты

 

Inflection-2.5:认识世界上最好的个人AI

 

Ниже мы приводим результаты ряда ключевых отраслевых эталонных тестов. Для простоты мы сравниваем Inflection-2.5 с GPT-4. Эти результаты показывают, что Pi теперь обладает возможностями IQ, сопоставимыми с признанными лидерами отрасли. Из-за различий в форматах отчетности мы обращаем внимание на формат, используемый для оценки.

Inflection-1 использовал около 41 TP3T обучающих операций с плавающей запятой (FLOP) для GPT-4, и средняя производительность GPT-4 составила около 721 TP3T в ряде задач, ориентированных на IQ. Inflection-2.5, на котором теперь работает Pi, достигает средней производительности более 941 TP3T для GPT-4, несмотря на использование всего 401 TP3T обучающих FLOP. Мы увидели значительный прирост производительности в целом ряде областей, причем наибольший прирост был достигнут в области STEM.

По сравнению с Inflection-1, Inflection-2.5 значительно продвинулся в бенчмарке MMLU, разнообразном бенчмарке, который измеряет производительность на широком диапазоне задач от школьного до профессионального уровня сложности. Мы также оценили чрезвычайно сложный эталон GPQA Diamond - эталон экспертного уровня.

 

Inflection-2.5:认识世界上最好的个人AI

 

Мы также включаем результаты двух различных экзаменов STEM: венгерского экзамена по математике и вступительного экзамена по физике GRE - Physics Graduate Entrance Exam.

Для венгерской математики мы используем [здесьДля облегчения повторения приводится небольшое количество примеров подсказок и форматов. В Inflection-2.5 используется только первый пример в подсказках.

Мы также...Опубликовано.] опубликовали обработанные версии физических экзаменов GRE (GR8677, GR9277, GR9677, GR0177) и сравнили результаты Inflection 2.5 на первом экзамене с GPT-4. Мы обнаружили, что Inflection-2.5 достигает 85-го процентиля среди людей, сдающих тесты, в MAJ@8 и почти максимального балла в MAJ@32. Некоторые вопросы с изображениями были исключены из приведенных ниже результатов, чтобы облегчить широкое сравнение. В любом случае, мы опубликовали все вопросы.

 

Inflection-2.5:认识世界上最好的个人AI

 

На BIG-Bench-Hard, подмножестве задач BIG-Bench, которые сложны для больших языковых моделей, Inflection-2.5 имеет более 101 TP3T улучшения по сравнению с Inflection-1 и не уступает самым мощным моделям.

 

Inflection-2.5:认识世界上最好的个人AI

 

Мы все еще здесь.MT-BenchМы оценили нашу модель на MT-Bench, широко известной в сообществе таблице лидеров для сравнения моделей. Однако после оценки на MT-Bench мы поняли, что почти четверть примеров в категориях "Рассуждения", "Математика" и "Кодирование" содержали неверные эталонные решения или ошибочные предпосылки задачи. Поэтому мы исправили эти примеры и опубликовали их в [...здесь] выпустили исправленную версию набора данных.

Оценивая эти два подмножества, мы обнаружили, что в правильно скорректированной версии наша модель работает более согласованно с ожиданиями, основанными на других эталонных тестах.

 

Inflection-2.5:认识世界上最好的个人AI

 

Inflection-2.5 предлагает особые улучшения по сравнению с Inflection-1 с точки зрения математических и кодовых характеристик, как показано в таблице ниже.

 

Inflection-2.5:认识世界上最好的个人AI

 

В бенчмарках MBPP+ и HumanEval+ мы видим значительное улучшение по сравнению с Inflection-1.

Для MBPP мы сообщаем результаты, полученные в [Кодер DeepSeek] для значений GPT-4. Для HumanEval мы использовали значение [EvalPlus] результаты в таблице лидеров (GPT-4 в мае 2023 года).

 

Inflection-2.5:认识世界上最好的个人AI

 

Мы также оценили производительность Inflection-2.5 в HellaSwag и ARC-C, двух обычных с точки зрения здравого смысла и науки бенчмарках, о которых сообщают многие модели. В обоих случаях мы увидели отличную производительность в этих почти насыщенных бенчмарках.

 

Inflection-2.5:认识世界上最好的个人AI

 

Все приведенные выше оценки относятся к модели, на которой сейчас работает Pi, но мы отмечаем, что пользовательский опыт может немного отличаться из-за влияния веб-поиска (ни в одном из приведенных выше эталонов не использовался веб-поиск), структуры небольшого количества примеров подсказок и других различий в производстве.

Короче говоря, Inflection-2.5 сохранил уникальную, доступную индивидуальность Pi и исключительные стандарты безопасности, став при этом более интимной моделью во всех отношениях.

Мы благодарны нашим партнерам из Azure и CoreWeave за их поддержку, благодаря которой современная языковая модель, лежащая в основе Pi, стала доступна миллионам пользователей по всему миру.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...