Aprendizagem pessoal com IA
e orientação prática

2024年度中文大模型基准测评报告(SuperCLUE)

contextos

自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年,全球大模型竞争态势日益加剧,随着Sora、GPT-4o、o1的发布,国内大模型在2024年进行了波澜壮阔的大模型追逐赛。

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1


中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪,正式发布《中文大模型基准测评2024年度报告》。

报告全文共89页,本文仅展示报告中关键内容,在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2024

SuperCLUE排行榜地址:

www.superclueai.com

 

报告关键内容

关键内容1:2024年最值得关注的大模型全景图

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

关键内容2:年度总榜及模型象限

测评介绍

本次年度报告聚焦通用能力测评,由理科、文科和Hard三大维度构成。题目均为原创新题,总量为1325道多轮简答题。

【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为语言理解、生成创作、安全测评集;【Hard任务】分为指令遵循、深度推理、Agent测评集。

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的42个大模型在12月份的版本。

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

年度总榜

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

年度模型象限

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

关键内容3:性价比区间分布

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

 

国产大模型在性价比(价格+效果)上有较大优势

 

国产大模型如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct在性价比上展现出极强的竞争力。在较为高水平的能力基础上能够保持极低的应用成本,在应用落地方面展现出友好的可用性。

 

大部分模型处于中度性价比区间

 

大部分模型为了保持较高的能力水平,价格方面仍处于高位。如GLM-4-Plus、Qwen-Max-latest、Claude 3.5 Sonnet、Grok-2-1212价格方面均处于30元/百万Tokens以上。

 

o1等推理模型性价比尚有较大优化空间

 

虽然o1和o1-preview展现出很高的能力水平,但在价格方面较其他模型高出数倍。如何降低成本或许成为推理模型广泛应用的前提条件。

 

关键内容4:推理效率区间分布

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

部分国产模型在综合效能上很有竞争力

国产模型中,DeepSeek-V3和Qwen2.5-32B-Instruct推理速度表现优异,平均每题推理时间在10s以内,同时基准得分在60分以上,符合「高效能区」,展现了极强的应用效能。

Gemini-2.0-Flash-Exp引领全球大模型应用效能

海外模型Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini符合「高效能区」,其中Gemini-2.0-Flash-Exp在推理时间和基准得分的综合效能上表现最为出色。GPT-4o-mini在推理速度上表现最优。

推理模型在效能上表现有较大优化空间

以o1-preview为代表的推理模型虽然在基准得分上表现出色,但每题平均推理时间约40s,综合效能符合「低效能区」。推理模型若要有广泛的应用场景,需要在推理速度上着重提升。

 

关键内容5:2024年国内外大模型差距及趋势

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。

2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多个版本的迭代升级。

国内模型也经历了波澜壮阔的1 8个月的迭代周期,从2 0 2 3年5月的0.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。

 

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest

在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude 3.5 Sonnet的表现。

 

o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距

在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。

 

关键内容6:其他子维度榜单

Hard榜单

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

理科榜单

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

文科榜单

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

各维度测评国内TOP3

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

开源模型榜单

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

10B以内模型榜单

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

Lista de modelos de extremidades até 5B

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

Lista de pontuações secundárias de granulação fina

O Relatório Anual de Medição de Benchmark de Modelos Grandes da China 2024 foi lançado! -1

 

Devido à limitação de espaço, este documento mostra apenas parte do relatório. O conteúdo completo inclui a metodologia de avaliação, exemplos de avaliação, listas de subtarefas, multimodalidade, aplicativos e introdução aos benchmarks de inferência.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " 2024年度中文大模型基准测评报告(SuperCLUE)

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil