contextos
自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年,全球大模型竞争态势日益加剧,随着Sora、GPT-4o、o1的发布,国内大模型在2024年进行了波澜壮阔的大模型追逐赛。
中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪,正式发布《中文大模型基准测评2024年度报告》。
报告全文共89页,本文仅展示报告中关键内容,在线完整报告地址(可下载):
www.cluebenchmarks.com/superclue_2024
SuperCLUE排行榜地址:
www.superclueai.com
报告关键内容
关键内容1:2024年最值得关注的大模型全景图
关键内容2:年度总榜及模型象限
测评介绍
本次年度报告聚焦通用能力测评,由理科、文科和Hard三大维度构成。题目均为原创新题,总量为1325道多轮简答题。
【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为语言理解、生成创作、安全测评集;【Hard任务】分为指令遵循、深度推理、Agent测评集。
本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的42个大模型在12月份的版本。
年度总榜
年度模型象限
关键内容3:性价比区间分布
国产大模型在性价比(价格+效果)上有较大优势
国产大模型如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct在性价比上展现出极强的竞争力。在较为高水平的能力基础上能够保持极低的应用成本,在应用落地方面展现出友好的可用性。
大部分模型处于中度性价比区间
大部分模型为了保持较高的能力水平,价格方面仍处于高位。如GLM-4-Plus、Qwen-Max-latest、Claude 3.5 Sonnet、Grok-2-1212价格方面均处于30元/百万Tokens以上。
o1等推理模型性价比尚有较大优化空间
虽然o1和o1-preview展现出很高的能力水平,但在价格方面较其他模型高出数倍。如何降低成本或许成为推理模型广泛应用的前提条件。
关键内容4:推理效率区间分布
部分国产模型在综合效能上很有竞争力
国产模型中,DeepSeek-V3和Qwen2.5-32B-Instruct推理速度表现优异,平均每题推理时间在10s以内,同时基准得分在60分以上,符合「高效能区」,展现了极强的应用效能。
Gemini-2.0-Flash-Exp引领全球大模型应用效能
海外模型Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini符合「高效能区」,其中Gemini-2.0-Flash-Exp在推理时间和基准得分的综合效能上表现最为出色。GPT-4o-mini在推理速度上表现最优。
推理模型在效能上表现有较大优化空间
以o1-preview为代表的推理模型虽然在基准得分上表现出色,但每题平均推理时间约40s,综合效能符合「低效能区」。推理模型若要有广泛的应用场景,需要在推理速度上着重提升。
关键内容5:2024年国内外大模型差距及趋势
总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。
2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的1 8个月的迭代周期,从2 0 2 3年5月的0.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest
在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude 3.5 Sonnet的表现。
o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距
在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。
关键内容6:其他子维度榜单
Hard榜单
理科榜单
文科榜单
各维度测评国内TOP3
开源模型榜单
10B以内模型榜单
Lista de modelos de extremidades até 5B
Lista de pontuações secundárias de granulação fina
Devido à limitação de espaço, este documento mostra apenas parte do relatório. O conteúdo completo inclui a metodologia de avaliação, exemplos de avaliação, listas de subtarefas, multimodalidade, aplicativos e introdução aos benchmarks de inferência.