Отчет о бенчмаркинге китайских крупных моделей за 2024 год (SuperCLUE)

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

97.3K 00

контексты

С 2023 года Большие модели ИИ создают крупнейшую в истории волну ИИ в глобальном масштабе. По мере того как мы вступаем в 2024 год, конкурентная динамика глобальной Большой модели возрастает иС выходом Sora, GPT-4o и o1 отечественные большие модели в 2024 году стали предметом погони за большими моделями.

Китайский эталон оценки больших моделей SuperCLUE, постоянно отслеживающий тенденции развития и комплексный эффект больших моделей в стране и за рубежом в режиме реального времени, официально выпущен.Китайский ежегодный отчет о бенчмаркинге крупных моделей за 2024 год.

Полный отчет состоит из 89 страниц, в данной статье представлено только основное содержание отчета, полный отчет доступен по адресу (скачать):

www.cluebenchmarks.com/superclue_2024

SuperCLUE Leaderboard Адрес:

www.superclueai.com

Ключевые элементы отчета

Ключевой компонент 1: Панорама наиболее примечательных крупных моделей на 2024 год

Ключевой компонент 2: Ежегодный общий рейтинг и квадрант моделирования

Введение в оценку

Этот ежегодный отчет посвящен оценке общих компетенций (GCA), которая состоит из трех измерений: "Наука", "Искусство" и "Труд".Все вопросы - новые оригинальные вопросыВ общей сложности 1 325 многораундовых вопросов с короткими ответами.

[Научные задачи] разделены на наборы "Вычисления", "Логические рассуждения" и "Оценка кода"; [Художественные задачи] разделены на наборы "Понимание языка", "Генеративное творчество" и "Оценка безопасности"; и [Трудные задачи] разделены на наборы "Следование инструкции", "Глубокие рассуждения" и "Оценка агента".

Данные для этой оценки взяты из результатов оценки SuperCLUE-December, а модель выбрана из репрезентативных 42 крупных моделей в стране и за рубежом в декабрьской версии.

турнирная таблица

Квадрант годовой модели

Ключевой элемент 3: Распределение зон соотношения цены и качества

Отечественные крупные модели имеют большое преимущество по соотношению цена/качество (цена + эффективность)

Отечественные крупные модели, такие как DeepSeek-V3, Qwen2.5-72B-Instruct и Qwen2.5-32B-Instruct, демонстрируют высокую конкурентоспособность по соотношению цена/производительность. На основе относительно высокого уровня возможностей можно поддерживать очень низкую стоимость применения, в применении посадки, чтобы показать дружественное удобство использования.

Большинство моделей находятся в среднем ценовом диапазоне

Большинство моделей по-прежнему имеют высокую цену, чтобы поддерживать высокий уровень возможностей. Например, GLM-4-Plus, Qwen-Max-latest, Claude 3.5 Sonnet и Grok-2-1212 имеют цену выше 30 долларов за миллион жетонов.

o1 и другие модели вывода имеют больше возможностей для оптимизации по соотношению цена/производительность

Хотя o1 и o1-preview демонстрируют высокий уровень возможностей, по цене они в несколько раз дороже других моделей. Способ снижения стоимости может стать необходимым условием для широкого распространения моделей вывода.

Ключевой компонент 4: рассуждения о распределении интервалов эффективности

Некоторые отечественные модели конкурентоспособны с точки зрения общей эффективности

Среди отечественных моделей DeepSeek-V3 и Qwen2.5-32B-Instruct отличаются превосходной скоростью вывода, среднее время вывода составляет менее 10 с на один вопрос, в то же время результаты бенчмарков превышают 60 баллов, что соответствует "зоне высокой производительности" и свидетельствует об очень высокой эффективности применения.

Gemini-2.0-Flash-Exp лидирует в мире по производительности приложений для больших моделей

Зарубежные модели Gemini-2.0-Flash-Exp, Claude 3.5 Sonnet (20241022), Grok-2-1212 и GPT-4o-mini попадают в "зону высокой производительности", причем Gemini-2.0-Flash-Exp демонстрирует наилучшие показатели по совокупной эффективности по времени вывода и по баллам бенчмарка. GPT-4o-mini демонстрирует наилучшие результаты по скорости вывода.

модель выводаЕсть много возможностей для оптимизации производительности.

Хотя модель вывода, представленная o1-preview, демонстрирует хорошие результаты в бенчмарке, среднее время вывода на один вопрос составляет около 40 с, а общая производительность находится в "зоне низкой производительности". Для того чтобы иметь широкий спектр сценариев применения, модель умозаключений должна быть направлена на повышение скорости умозаключений.

Ключевой компонент 5: внутренние и международные пробелы и тенденции в моделировании крупных объектов, 2024 год

Общая тенденция заключается в том, что разрыв между общими возможностями первого эшелона отечественных и зарубежных крупных моделей в китайской области увеличивается.

С мая 2023 года по настоящее время отечественные и зарубежные возможности крупных моделей продолжают развиваться. Среди них лучшие зарубежные модели, представленные серией моделей GPT, прошли через множество итераций от GPT3 . 5, GPT4, GPT4 - Turbo, GPT4o, o1 многочисленных версий итерационных модернизаций.

Отечественная модель также прошла через неровный 1 8-месячный цикл итераций, сократив разрыв с 0,121 TP3T в мае 2 0 2 3 до 1,291 TP3T в августе 2024 года. но с выходом o1 разрыв снова увеличился до 15,051 TP3T.

Отечественные модели, представленные DeepSeek-V3, очень близки к GPT-4o-latest

За последние 2 года отечественные модели-представители прошли несколько итераций, DeepSeek-V3, Doubao-pro, GLM-4-Plus и Qwen2.5 приблизились к GPT-4o в китайских задачах, среди которых DeepSeek-V3 показал хорошие результаты, превзойдя производительность Claude 3.5 Sonnet в декабрьской оценке.

o1 Модели рассуждений, основанные на новой парадигме обучения с подкреплением, преодолели 80 баллов и увеличили разрыв между лучшими моделями в стране и за рубежом

В оценке SuperCLUE в декабре, основные головные большие модели в стране и за рубежом в SuperCLUE эталонных баллов сосредоточены в 60-70 баллов. o1 и o1-превью на основе новой парадигмы подкрепления обучения вывода модель стала важным представителем технологии прорыва через 70-балльной узкое место, особенно o1 формальная версия прорыва 80-балльной отметки, показывая большое преимущество.

Ключевой элемент 6: Списки других подизмерений

Жесткий список

Список научных предметов

Список свободных искусств

Топ-3 в Китае по каждому измерению

Список моделей с открытым исходным кодом

Список моделей до 10B

Список моделей с торцевой стороной до 5B

Список вторичных тонких оценок

В связи с ограничением объема в данной статье представлена только часть отчета. Полное содержание включает в себя методологию оценки, примеры оценки, списки подзадач, мультимодальность, приложения и введение в эталоны умозаключений.