AI个人学习
和实操指南
讯飞绘镜

项目级代码生成结果出炉!o3/Claude3.7领跑,R1跻身第一梯队

blank

2025年2月26日,SuperCLUE发布项目级代码生成(SuperCLUE-Project)测评基准首期榜单。


测评方案见:项目级代码生成测评基准发布。本次测评基于大模型“裁判团”的合作,全方位评价了国内外12个大模型在项目级代码生成任务上的能力,任务涵盖包括了游戏开发、工具和管理系统等5大类应用场景。以下为详细测评报告。

 

项目级代码测评摘要

摘要1:o3-mini-high与Claude-3.7-Sonnet-Reasoning处于领跑地位

本次测评中,OpenAI发布的o3-mini-high取得综合成绩82.08分,Anthropic公司最新发布的推理模型Claude-3.7-Sonnet-Reasoning的综合成绩达到81.63分,二者携手领跑榜单。

摘要2:DeepSeek-R1领跑国内模型,跻身业界第一梯队

从测评结果看,DeepSeek-R1与o3-mini-high、Claude-3.5-Sonnet/3.7-Sonnet-Reasoning、Gemini-2.0-pro等业界前沿模型得分差距极小,甚至在部分应用场景下取得了一定的领先地位。

摘要3:各有所长。R1擅长游戏开发,o3/阶跃Step R擅长多媒体编辑,多家擅长网络应用

本次参评的12个模型,均呈现出在不同应用场景下的能力差异,如DeepSeek-R1在“游戏开发”领域表现突出,Claude-3.5-Sonnet、豆包1.5pro和通义千问Max更加擅长“网络应用”设计,阶跃星辰Step R-mini在“多媒体编辑”工具开发中有独特优势等。

摘要4:不同模型在方法选择、界面风格上差异明显

对比模型答案发现,面对相同用户需求,不同模型选择的编程语言、调用的库/模块大相径庭,对界面美观度的重视程度也有显著差异,一定程度上反映了模型的能力、偏好、理念等差异。

 

榜单概览 blank

 

SuperCLUE-Project测评体系

SuperCLUE-Project是中文原生项目级代码测评基准,旨在考察大模型将用户的项目级需求转变成代码实现的能力。 blank

SuperCLUE-Project围绕非程序员用户群体的实际需求,涵盖5个一级维度、18个二级维度,以中文自然语言构建题目集。鉴于非程序员群体特点,我们在题目设计中仅强调功能层面的需求描述,而将效率、安全、可读性等指标作为大模型选手的独立能力,置于测评环节加以评估。

此外,基准还设置了简单--中等--复杂三级难度,针对同一题目集进行整体扩展,为模型的项目级代码实现能力提供更深的洞见。

 

测评方法

参考SuperCLUE细粒度评估方式,遵循以下流程进行测评:

1) 测评集构建

1.关注大模型辅助的低代码/零代码开发领域动态,收集整理非程序员群体代码项目需求

2.编写简单难度的项目级代码测评集

3.控制格式和字数范围,将测评集扩展至中等/复杂难度

4.测试和人工校验

2) 评分过程

1.编写评价规则prompt--->

2.小范围测试,人工检验裁判模型与人类专家的评价一致性--->

3.根据一致性反馈,反复调优评价规则--->

4.将待测模型回答和评价规则完整传入两个裁判模型,分别接收完整评价--->

5.计算两个裁判模型在各维度的评分均值作为最终结果

3) 人类一致性分析

对测评集进行分层抽样,通过计算组内相关系数检验裁判模型与人类专家的评价一致性,并报告该表现。

相较于以往的基准,SuperCLUE-Project在实施测评的过程中首次引入国内、国外两个模型(Gemini-2.0-flash和Qwen-Max)同时作为裁判员,通过“裁判团”的合作,进一步减少了大模型的偏差 (bias) 和偏好 (preference) 问题。

此外,为验证裁判模型的可靠性,SuperCLUE-Project首次引入组内相关系数 (Intra-class Correlation Coefficient, ICC),通过计算人类专家、Qwen-Max和Gemini-2.0-flash三者评分的双向混合效应 (ICC(3,k)) 指数,验证了裁判模型与人类评价具有强一致性。相比过去的百分比可靠性,该方法有效克服了随机误差带来的波动影响。

(*注:组内相关系数(ICC)是衡量和评价观察者间信度(inter-observer reliability)和复测信度(test-retest reliability)的信度系数指标之一,最早由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度。在本实验中,由于我们仅需考虑选定的裁判模型和人类专家的评价一致性,无需扩展到其他评分者,故选择双向混合效应指数作为一致性指标。)

 

评估标准

  • 功能完整性 (60%):确保代码完全实现用户指令中描述的所有功能。
  • 代码质量 (28%):评估代码在效率、可读性和安全性方面的表现。具体包括:

a.效率 (12%):代码在资源占用、DOM操作、数据库/大数据集处理、计算或API调用等方面是否足够优化。

b.可读性 (8%):代码是否实现了 (1) 采用清晰的命名和一致的格式;(2) 合理地将代码库划分为模块;(3) 保持清晰的项目结构。

c.安全性 (8%):代码是否 (1) 无明显的安全漏洞;(2) 能够有效处理基本异常。

  • 用户体验 (12%):评估用户界面设计和美学质量,包括交互元素(例如按钮、表单)的正常运行,以及整体界面的基本美观。

相较于过去的评价标准设计,SuperCLUE-Project改变了相对均衡的评分机制,显著突出了功能实现方面的评分权重,而这也是普通用户最关注的能力。

此外,SuperCLUE-Project的评价标准中明确了扣分制的打分模式,即在默认满分的基础上,基于题目和对应代码实现的比较,扣除未能满足题目要求的部分分数。对于此类逐题单独评价的方法,扣分制一定程度上弥补了大模型裁判对多项回答相对质量考察的不足,减轻了大模型评价的随机性问题

 

参评模型

为综合衡量当前海内外大模型解决项目级代码需求的能力水平,本期测评选取了代表性较高的7个国内模型和5个海外模型。

blank

测评结果

总榜单

blank

 

应用场景榜单 blank

blank
blank

评测与人类一致性分析

为科学评价SuperCLUE-Project基准与人类专家的一致性,我们从测评结果中挑选综合表现较好、一般和较差的三个模型,分层抽取33个问题-回答对,进行人工独立评分和两个裁判模型逐题评分,并汇报三者总评分的百分比一致性、组内相关系数,科学地考察大模型“裁判团”评分的专业性。

blank

注:通常认为ICC-3k值达到0.75以上,即表明评分者间的一致性较高。

 

测评案例

示例1 游戏开发 (益智类, 困难)

Prompt:编写代码实现一个连连看游戏,随机出现多种颜色的、紧密排列的m*n个小方块 (m, n由用户开始游戏前指定,均为大于5的整数) ,用户点击两个方块,如果颜色相同且相连接路径(仅允许水平和垂直两个方向)不多于两次转弯,则消除两方块;如果不满足消除规则,则点击的两个方块闪烁三下。玩家有三次机会可以打乱现有方块的排列。如果用户在3秒内连续成功消除两次,则在屏幕上显示"Combo!"。

大模型裁判1 (Gemini-2.0-flash):

用户指令中包含的需求 (基于独立分析)

1.创建游戏界面: 创建一个m*n的方块网格,m和n由用户指定(大于5的整数)。

2.方块颜色随机化: 随机生成多种颜色的方块,并确保每种颜色出现偶数次,以便可以两两消除。

3.消除规则: 当用户点击两个颜色相同的方块,且它们之间可以通过不多于两次转弯的路径连接时,消除这两个方块。

4.错误提示: 如果用户点击的两个方块不满足消除规则,则点击的方块闪烁三次。

5.打乱功能: 允许玩家打乱方块排列,总共有三次机会。

6.连击奖励: 如果用户在3秒内连续成功消除两次,则显示 "Combo!"。

对代码缺陷的总体点评

该代码实现了一个基本的连连看游戏,实现了方块的随机生成、消除规则、错误提示、打乱功能和连击奖励。但是,代码在用户体验和效率方面存在一些不足。例如,方块闪烁效果不够流畅,消除方块后的界面更新不够及时。

各项标准的评分

-- 功能完整性:[[15]] 分

(实现了所有功能,包括随机生成方块、消除规则、打乱功能和连击奖励。所有核心功能均已实现,因此不扣分。)

-- 代码质量:[[5]] 分,其中:

效率:[[2]] 分

(代码在生成棋盘时,先创建了一个包含所有颜色的列表,然后进行随机打乱。这种做法在m和n较大时,可能会影响效率。此外,在判断两个方块是否可以消除时,使用了广度优先搜索算法。虽然该算法可以找到最短路径,但在大规模棋盘上,可能会比较耗时。因此,扣1分。)

可读性:[[2]] 分

(代码的命名基本清晰,但部分代码块的注释不足,例如,对于广度优先搜索算法的解释不够详细。代码的整体结构良好,但可以进一步模块化,例如,将游戏逻辑和界面绘制分离。因此,不扣分。)

安全性:[[1]] 分

(代码没有明显的安全漏洞,但是,对于用户输入的m和n,只做了简单的数值范围检查,没有考虑其他异常情况,例如,用户输入非整数。因此,扣1分。)

-- 用户体验:[[1]] 分

(游戏界面基本可以运行,但是,方块闪烁效果不够流畅,消除方块后的界面更新不够及时。此外,游戏缺少音效和动画效果,用户体验有待提升。因此扣2分。)

综上所述,该代码实现的总体得分为 <<21>> 分。

 

大模型裁判2 (Qwen-Max):

用户指令中包含的需求 (基于独立分析)

1. 游戏界面应随机出现多种颜色的、紧密排列的m*n个小方块,其中m和n由用户指定且均为大于5的整数。

2. 用户点击两个方块,如果颜色相同且相连接路径(仅允许水平和垂直两个方向)不多于两次转弯,则消除两方块。

3. 如果不满足消除规则,则点击的两个方块闪烁三下。

4. 玩家有三次机会可以打乱现有方块的排列。

5. 如果用户在3秒内连续成功消除两次,则在屏幕上显示"Combo!"。

对代码缺陷的总体点评

代码实现了基本的游戏逻辑,包括生成游戏板、检测方块是否相连以及处理玩家输入等。

代码结构较为清晰,但部分地方可以进一步优化以提高可读性和效率。

各项标准的评分

-- 功能完整性:[[15]] 分

该代码实现完全符合用户指令中的所有功能要求:

生成了m*n的小方块,且m和n由用户指定且均为大于5的整数。

用户点击两个方块,如果颜色相同且相连接路径不多于两次转弯,则消除两方块。

不满足消除规则时,点击的两个方块闪烁三下。

玩家有三次机会可以打乱现有方块的排列。

用户在3秒内连续成功消除两次时,在屏幕上显示"Combo!"。

-- 代码质量:[[5]] 分,其中:

效率:[[3]] 分

代码整体上对资源利用合理,没有明显的性能瓶颈。但由于未考虑极端情况下可能出现的问题,故保持满分。

可读性:[[1]] 分

虽然变量命名较清晰,但函数is_connected中的逻辑稍显复杂,不易理解。此外,主循环内的逻辑也可以通过更合理的模块化来改善。

安全性:[[1]] 分

代码缺乏对用户输入的有效验证,比如确保输入的是正整数。同时,对于某些潜在错误(如文件操作失败)也没有相应的处理机制。

-- 用户体验:[[2]] 分

游戏界面基本美观,交互元素工作正常。但是,由于方块闪烁次数符合要求,用户体验的一致性较好。

综上所述,该代码实现的总体得分为 <<22>> 分。

 

综合评分:【21.5/25】

 

#示例2 游戏开发 (射击类, 困难)

Prompt:编写代码实现一个简单的空战游戏,玩家通过左右方向键操纵界面下方的飞机,躲避从上方飞下来的障碍,并按空格键射击来自上方的敌机,敌机会左右随机移动并开火。初始生命值为3,每次撞上障碍或被敌机击中,生命值减少1,生命值为0时游戏结束。第一关有3架敌机,随后每关增加3架敌机。玩家操控的飞机有两种开火模式,模式A (默认) 只能向正前方开火,命中敌机1发炮弹则将其摧毁;模式B向多个方向开火,需要命中敌机2发炮弹才能将其摧毁。按"Q"键切换模式A和B。

【o3-mini-high代码效果演示】:

 

综合评分:【22/25】

#示例3 快捷工具 (日常办公, 中等)

Prompt:编写代码实现一个英文文本处理工具,用户输入文本后,工具能快速执行单词数量统计、词频排序、大小写转换、去除空格与换行符、行号添加等操作。此外,工具能够保存多条用户自定义的替换规则,并统一执行。用户可以将文本保存至收藏夹中,并自定义标题。

 

综合评分:【20.5/25】

 

示例4 网络应用 (网页视觉, 困难)

Prompt:编写代码实现一个时装展示网站,有多张图片(由用户上传)自动轮播,缩略图位于页面下方。图片切换时,采用卡片翻转的视觉效果。鼠标悬停在图片上时,使用放大镜展示细节。页面右上角有“关灯”按钮,默认为白色背景,点击“关灯”后背景变成黑色,按钮变成“开灯”。页面背景有花瓣缓缓飘落的效果。左上角有开始/暂停图标按钮,控制图片自动轮播的开始和暂停;每张轮播图片的右下角有一个白色的爱心图标,点击后变成粉红色,右边显示点击爱心的次数。

 

综合评分:【23/25】

 

示例5 网络应用 (教育学习, 困难)

Prompt:编写代码实现一个背单词网站,向用户展示单词和四个释义选项,用户选择正确选项,则跳转到下一个单词;用户选择错误,则先提示正确选项再跳转。每组有5个单词,共3组,每组结束后,用户可选择结束学习或再学一组单词。结束学习后,显示本次学习的总体正确率。用户答错的题目将自动记录,用户可点击界面上方的“切换至复习模式”,重新回答之前答错的单词题目。出题的顺序是随机的,即每次进入该网站时,题目的顺序通常是不同的。

【Qwen-Max代码效果演示】:

 

综合评分:【19/25】

 

测评分析及结论

1. o3-mini-high与Claude-3.7-Sonnet-Reasoning处于领先地位

本次测评中,OpenAI发布的o3-mini-high取得综合成绩82.08分,Anthropic公司最新发布的推理模型Claude-3.7-Sonnet-Reasoning的综合成绩则达到81.63分,二者携手领跑榜单。

2. DeepSeek-R1领跑国内模型,跻身业界第一梯队

从测评结果看,DeepSeek-R1与o3-mini-high、Claude-3.5-Sonnet/3.7-Sonnet-Reasoning、Gemini-2.0-pro等业界前沿模型得分差距极小,并且在“游戏开发”和“网络应用”两个应用场景下表现尤其突出,超越或达到了Claude-3.5-Sonnet、Gemini-2.0-pro等模型水准。

3. 各有所长:R1擅长游戏开发,o3/阶跃Step R擅长多媒体编辑,多家擅长网络应用

本次参评的12个模型,均呈现出在不同应用场景下的能力差异。其中,DeepSeek-R1在“游戏开发”领域表现突出,Claude-3.5-Sonnet、豆包1.5pro、智谱清言GLM-Zero-preview和通义千问Max更加擅长“网络应用”设计,o3-mini-high和阶跃星辰Step R-mini在“多媒体编辑”工具开发中有独特优势。

4. 不同模型在方法选择、界面风格上差异明显

对比模型答案发现,面对相同用户需求,不同模型选择的编程语言、调用的库/模块大相径庭,对界面美观度的重视程度也有显著差异,这一定程度上反映了模型的能力、偏好、理念等差异。整体来看,海外模型在用户界面的设计上表现更优。

相关示例如下:

问题一:

编写代码实现一个简单的在线点餐网站,支持添加菜品到购物车中,通过"+"和"-"更改菜品份数,实时显示购物车中菜品总价,并能够点击下单。下单后,购物车清空,并询问顾客是否需要打包。总金额每满100元,应优惠10元。

问题二:

编写代码实现一个篮球投篮游戏,鼠标移动控制篮球的投掷方向,按下鼠标蓄力,篮球入筐则得分,连续入筐有额外加分,未入筐三次则结束游戏。选择方向和蓄力时,需用虚线标出预定的飞行轨迹;投出篮球后,需清晰显示其飞行轨迹。投篮前,可通过左右方向键移动篮球的初始位置,短距离投篮命中得2分,当超过一定距离后,投篮命中得3分。存在击中篮板反弹进球的可能性。

CDN1
未经允许不得转载:首席AI分享圈 » 项目级代码生成结果出炉!o3/Claude3.7领跑,R1跻身第一梯队

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文