Kontexte
自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年,全球大模型竞争态势日益加剧,随着Sora、GPT-4o、o1的发布,国内大模型在2024年进行了波澜壮阔的大模型追逐赛。
中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪,正式发布《中文大模型基准测评2024年度报告》。
报告全文共89页,本文仅展示报告中关键内容,在线完整报告地址(可下载):
www.cluebenchmarks.com/superclue_2024
SuperCLUE排行榜地址:
www.superclueai.com
报告关键内容
关键内容1:2024年最值得关注的大模型全景图
关键内容2:年度总榜及模型象限
测评介绍
本次年度报告聚焦通用能力测评,由理科、文科和Hard三大维度构成。题目均为原创新题,总量为1325道多轮简答题。
【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为语言理解、生成创作、安全测评集;【Hard任务】分为指令遵循、深度推理、Agent测评集。
本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的42个大模型在12月份的版本。
年度总榜
年度模型象限
关键内容3:性价比区间分布
国产大模型在性价比(价格+效果)上有较大优势
国产大模型如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct在性价比上展现出极强的竞争力。在较为高水平的能力基础上能够保持极低的应用成本,在应用落地方面展现出友好的可用性。
大部分模型处于中度性价比区间
大部分模型为了保持较高的能力水平,价格方面仍处于高位。如GLM-4-Plus、Qwen-Max-latest、Claude 3.5 Sonnet、Grok-2-1212价格方面均处于30元/百万Tokens以上。
o1等推理模型性价比尚有较大优化空间
虽然o1和o1-preview展现出很高的能力水平,但在价格方面较其他模型高出数倍。如何降低成本或许成为推理模型广泛应用的前提条件。
关键内容4:推理效率区间分布
部分国产模型在综合效能上很有竞争力
国产模型中,DeepSeek-V3和Qwen2.5-32B-Instruct推理速度表现优异,平均每题推理时间在10s以内,同时基准得分在60分以上,符合「高效能区」,展现了极强的应用效能。
Gemini-2.0-Flash-Exp引领全球大模型应用效能
海外模型Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini符合「高效能区」,其中Gemini-2.0-Flash-Exp在推理时间和基准得分的综合效能上表现最为出色。GPT-4o-mini在推理速度上表现最优。
推理模型在效能上表现有较大优化空间
以o1-preview为代表的推理模型虽然在基准得分上表现出色,但每题平均推理时间约40s,综合效能符合「低效能区」。推理模型若要有广泛的应用场景,需要在推理速度上着重提升。
关键内容5:2024年国内外大模型差距及趋势
总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。
2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的1 8个月的迭代周期,从2 0 2 3年5月的0.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest
在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude 3.5 Sonnet的表现。
o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距
在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。
关键内容6:其他子维度榜单
Hard榜单
理科榜单
文科榜单
各维度测评国内TOP3
开源模型榜单
10B以内模型榜单
Liste der endseitigen Modelle bis zu 5B
Liste der sekundären feinkörnigen Noten
Aus Platzgründen wird in diesem Papier nur ein Teil des Berichts wiedergegeben. Der vollständige Inhalt umfasst die Bewertungsmethodik, Bewertungsbeispiele, Teilaufgabenlisten, Multimodalität, Anwendungen und eine Einführung in Inferenz-Benchmarks.