프로젝트 레벨 코드 생성 결과가 나왔습니다! o3/Claude 3.7이 선두, R1이 최상위권에 올랐습니다!

41.3K 00

2025년 2월 26일, SuperCLUE는 프로젝트 수준 코드 생성(SuperCLUE-Project) 측정 벤치마크의 첫 번째 목록을 발표했습니다.

평가 프로그램에 대한 자세한 내용은 프로젝트 수준 코드 생성 평가 벤치마크 공개를 참조하세요. 이번 평가는 빅 모델 '심사위원단'의 협력을 바탕으로 게임 개발, 도구 및 관리 시스템 등 5개 범주의 적용 시나리오를 포괄하는 프로젝트 수준 코드 생성 과제에 대해 국내외 12개 빅 모델의 역량을 평가했습니다. 자세한 평가 보고서는 다음과 같습니다. 자세한 평가 보고서는 다음과 같습니다.

프로젝트 수준 코드 측정 요약

초록 1: o3-mini-high와 클로드-3.7-소넷-리소싱이 선두를 달리고 있습니다.

이번 평가에서 OpenAI가 출시한 o3-mini-high는 종합 점수 82.08점을, Anthropic이 새롭게 출시한 추론 모델 Claude-3.7-Sonnet-Reasoning은 종합 점수 81.63점을 기록해 두 회사가 나란히 선두를 차지했습니다.

초록 2: DeepSeek-R1, 국내 모델을 선도하며 업계 최상위권에 랭크됨

평가 결과, DeepSeek-R1과 o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro 등 업계의 최첨단 모델 간의 점수 격차는 매우 작았으며 일부 애플리케이션 시나리오에서는 특정 선두 자리를 차지하기도 했습니다.

요약 3: 각각 고유한 강점이 있습니다. r1은 게임 개발에 특화되어 있고, o3/Step Step R은 멀티미디어 편집에 특화되어 있으며, 몇몇은 웹 애플리케이션에 특화되어 있습니다.

평가에 참여한 12개 모델은 다양한 애플리케이션 시나리오에서 기능의 차이를 보여주며, 예를 들어 DeepSeek-R1은 "게임 개발" 분야에서 탁월하고 Claude-3.5-Sonnet, Beanbag 1.5pro 및 Tongyiqianqian Max는 "웹 애플리케이션" 디자인 등에 더 전문화되어 있습니다. 클로드-3.5-소넷, 빈백 1.5프로, 통이첸첸 맥스는 "웹 애플리케이션" 디자인에 더 특화되어 있으며, 스텝스타 스텝 R-미니는 "멀티미디어 편집" 도구 개발 등에 독특한 장점을 가지고 있습니다.

요약 4: 모델마다 방법론적 선택, 인터페이스 스타일이 크게 다릅니다.

모델 답변을 비교해보면 동일한 사용자 요구 사항에 직면했을 때 모델마다 매우 다른 프로그래밍 언어, 호출 라이브러리/모듈을 선택하고 인터페이스의 미학에 상당한 주의를 기울이는 것으로 나타났는데, 이는 어느 정도 모델의 기능, 선호도 및 개념의 차이를 반영하는 것입니다.

목록 개요 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

SuperCLUE-프로젝트 평가 시스템

SuperCLUE-Project는 사용자의 프로젝트 수준 요구 사항을 코드 구현으로 전환하는 대규모 모델의 능력을 검사하기 위해 설계된 중국 네이티브 프로젝트 수준 코드 평가 벤치마크입니다. 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

슈퍼클루 프로젝트는 프로그래머가 아닌 사용자 그룹의 실제 요구 사항에 초점을 맞춰 5개의 1단계 차원과 18개의 2단계 차원을 다루고, 중국어 자연어로 문제 세트를 구성했습니다. 비프로그래머 커뮤니티의 특성을 고려하여 주제 설계에서 요구 사항 설명의 기능적 수준만 강조하고 효율성, 보안, 가독성 및 기타 지표는 평가 세션에서 평가할 대규모 모델 플레이어의 독립적인 역량으로 두었습니다.

또한 벤치마크의 난이도는 쉬움-중간-복잡함의 세 가지 수준으로, 동일한 주제 세트에 대해 전체적으로 확장되어 모델의 프로젝트 수준 코드 구현 능력에 대한 심층적인 통찰력을 제공합니다.

방법론

SuperCLUE의 세분화된 평가 접근 방식을 참조하여 다음 프로세스에 따라 평가를 수행합니다:

1) 측정 세트 구성

1. 대규모 모델 지원 로우코드/제로코드 개발 분야의 역학 관계에 대한 우려, 프로그래머가 아닌 그룹 코드 프로젝트 요구 사항 수집 및 대조

2. 간단한 난이도의 프로젝트 수준 코드 평가 세트를 작성합니다.

3. 형식 및 단어 수 범위를 제어하여 평가 세트를 보통/복잡한 난이도로 확장합니다.

4. 테스트 및 수동 보정

2) 채점 과정

1. 평가 규칙 준비 프롬프트 --->

2. 심판 모델의 평가와 인간 전문가의 평가의 일관성을 수동으로 확인하는 소규모 테스트 --->

3. 일관성 피드백을 기반으로 평가 규칙을 반복적으로 조정 --->

4. 테스트할 모델 응답 및 평가 규칙의 전체 집합을 두 심판 모델에 각각 전달하여 전체 평가를 받습니다 --->.

5. 각 차원에 있는 두 평가 모델의 점수 평균을 최종 결과로 계산합니다.

3) 인간 일관성 분석

측정 세트의 계층화된 샘플링을 수행하여 그룹 내 상관 계수를 계산하고 해당 성능을 보고함으로써 심판 모델의 평가와 인간 전문가의 평가의 일관성을 테스트했습니다.

이전 벤치마크와 비교하여, SuperCLUE-Project는 평가 수행에 있어 처음으로 국내외 모델(Gemini-2.0-flash 및 Qwen-Max)을 모두 심판으로 도입하여 "심판팀"의 협력을 통해 대형 모델의 편향성 및 선호도 문제를 더욱 줄였습니다. ("심판 팀"의 협력을 통해 대형 모델의 편향성 및 선호도 문제를 더욱 줄입니다.

또한 슈퍼클루 프로젝트는 심판 모델의 신뢰성을 검증하기 위해 처음으로 클래스 내 상관계수(ICC)를 도입해 인간 전문가 평가와 큐원맥스, 제미니-2.0-플래시 평가의 양방향 혼합 효과를 계산해( ICC(3,k)) 지수를 통해 심판 모델은 사람의 평가와 매우 일치하는 것으로 확인되었습니다. 과거의 신뢰도 비율과 비교했을 때 이 방법은 무작위 오류의 변동 효과를 효과적으로 극복합니다.

(*주: 집단 내 상관계수(ICC)는 관찰자 간 신뢰도와 검사-재검사 신뢰도를 측정하고 평가하는 신뢰도 계수 지표 중 하나로, 1966년 Bartko가 신뢰도의 크기를 측정하고 평가하기 위해 처음 사용했으며, ICC는 개인의 변동성을 전체 변동성으로 나눈 값입니다. 이 실험에서는 선택한 심판 모델과 인간 전문가의 평가 간의 일관성만 고려하면 되고 다른 평가자에게까지 확장할 필요가 없기 때문에 양방향 혼합 효과 지수를 일관성 지수로 선택했습니다).

평가 기준

기능적 무결성(60%): 코드가 사용자 지침에 설명된 모든 기능을 완벽하게 구현하는지 확인합니다.
코드 품질(28%): 효율성, 가독성, 보안 측면에서 코드 성능을 평가합니다. 구체적으로 다음을 포함합니다:

a. 효율성(12%): 코드가 리소스 사용, DOM 조작, 데이터베이스/대규모 데이터 세트 처리, 계산 또는 API 호출 측면에서 충분히 최적화되었는지 여부입니다.

b. 가독성(8%): 코드가 (1) 명확한 이름 지정과 일관된 서식 사용, (2) 코드 기반을 모듈로 논리적으로 구분, (3) 명확한 프로젝트 구조의 유지 관리를 구현하는지 여부입니다.

c. 보안(8%): 코드에 (1) 명백한 보안 허점이 없는지, (2) 기본 예외를 효과적으로 처리할 수 있는지 여부.

사용자 경험(12%): 대화형 요소(예: 버튼, 양식)의 적절한 기능 및 전체 인터페이스의 기본 미학을 포함하여 사용자 인터페이스 디자인 및 미학의 품질을 평가합니다.

슈퍼클루 프로젝트는 과거 평가 기준 설계와 비교해 상대적으로 균형 잡힌 채점 방식을 변경하여 일반 사용자가 가장 중요하게 생각하는 기능 구현 측면의 배점 비중을 크게 부각시켰습니다.

또한 슈퍼클루-프로젝트의 평가 기준에는 감점제의 채점 방식, 즉 기본 만점을 기준으로 문항과 해당 코드 구현을 비교하여 문항의 요구 사항을 충족하지 못한 부분을 감점하는 방식이 명시되어 있습니다. 이러한 문항별 개별 평가 방식의 경우, 감점 제도는 다수 응답의 상대적 품질을 심사하는 대형 모델 심판의 단점을 어느 정도 보완하고 대형 모델 평가의확률성.

참여 모델

이번 평가에는 프로젝트 수준의 코드 요구사항을 해결하기 위한 국내외 대형 모델의 현재 능력 수준을 종합적으로 측정하기 위해 대표성이 높은 국내 모델 7종과 해외 모델 5종을 선정했습니다.

평가 결과

전체 목록

애플리케이션 시나리오 목록

검토 및 인적 일관성 분석

슈퍼클루-프로젝트 벤치마크의 일관성을 인간 전문가와 과학적으로 평가하기 위해 평가 결과에서 전체 성능이 더 우수, 평균, 열등한 세 가지 모델을 선정하고 33개의 문답 쌍을 계층화하여 두 심판 모델이 수동 독립 채점 및 문항별 채점을 수행하고 세 모델의 총점 일관성 비율, 그룹의 상관 계수를보고하고 빅 모델의 전문성을 과학적으로 조사합니다. '심판 패널' 채점의 전문성을 과학적으로 검증했습니다.

참고: 일반적으로 ICC-3k 값이 0.75 이상이면 평가자 간 동의도가 높은 것으로 간주합니다.

평가 사례

예제 1 게임 개발(퍼즐, 난이도)

프롬프트:점 잇기 게임을 구현하는 코드를 작성하고, 여러 색상의 좁은 간격의 m * n 작은 큐브(사용자가 게임 시작 전에 지정한 m, n은 5보다 큰 정수)가 무작위로 나타나고, 사용자가 두 큐브를 클릭하면 색상이 같고 연결된 경로(가로 및 세로 방향만 허용)가 두 번 이상 회전하지 않으면 두 큐브를 제거하고, 제거 규칙이 충족되지 않으면 클릭한 두 큐브를 제거합니다. 세 번 깜빡입니다. 플레이어는 세 번의 기회에 기존 사각형의 배열을 방해할 수 있습니다. 3초 이내에 두 개의 사각형을 연속으로 제거하는 데 성공하면 화면에 "콤보!"가 표시됩니다.

빅 모델 Ref 1(Gemini-2.0-플래시):

用户指令中包含的需求 (基于独立分析)

1.创建游戏界面: 创建一个m*n的方块网格，m和n由用户指定（大于5的整数）。

2.方块颜色随机化: 随机生成多种颜色的方块，并确保每种颜色出现偶数次，以便可以两两消除。

3.消除规则: 当用户点击两个颜色相同的方块，且它们之间可以通过不多于两次转弯的路径连接时，消除这两个方块。

4.错误提示: 如果用户点击的两个方块不满足消除规则，则点击的方块闪烁三次。

5.打乱功能: 允许玩家打乱方块排列，总共有三次机会。

6.连击奖励: 如果用户在3秒内连续成功消除两次，则显示 "Combo!"。

对代码缺陷的总体点评

该代码实现了一个基本的连连看游戏，实现了方块的随机生成、消除规则、错误提示、打乱功能和连击奖励。但是，代码在用户体验和效率方面存在一些不足。例如，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。

各项标准的评分

-- 功能完整性：[[15]] 分

（实现了所有功能，包括随机生成方块、消除规则、打乱功能和连击奖励。所有核心功能均已实现，因此不扣分。）

-- 代码质量：[[5]] 分，其中：

效率：[[2]] 分

（代码在生成棋盘时，先创建了一个包含所有颜色的列表，然后进行随机打乱。这种做法在m和n较大时，可能会影响效率。此外，在判断两个方块是否可以消除时，使用了广度优先搜索算法。虽然该算法可以找到最短路径，但在大规模棋盘上，可能会比较耗时。因此，扣1分。）

可读性：[[2]] 分

（代码的命名基本清晰，但部分代码块的注释不足，例如，对于广度优先搜索算法的解释不够详细。代码的整体结构良好，但可以进一步模块化，例如，将游戏逻辑和界面绘制分离。因此，不扣分。）

安全性：[[1]] 分

（代码没有明显的安全漏洞，但是，对于用户输入的m和n，只做了简单的数值范围检查，没有考虑其他异常情况，例如，用户输入非整数。因此，扣1分。）

-- 用户体验：[[1]] 分

（游戏界面基本可以运行，但是，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。此外，游戏缺少音效和动画效果，用户体验有待提升。因此扣2分。）

综上所述，该代码实现的总体得分为 <<21>> 分。

빅 모델 심판 2(퀀맥스):

用户指令中包含的需求 (基于独立分析)

1. 游戏界面应随机出现多种颜色的、紧密排列的m*n个小方块，其中m和n由用户指定且均为大于5的整数。

2. 用户点击两个方块，如果颜色相同且相连接路径（仅允许水平和垂直两个方向）不多于两次转弯，则消除两方块。

3. 如果不满足消除规则，则点击的两个方块闪烁三下。

4. 玩家有三次机会可以打乱现有方块的排列。

5. 如果用户在3秒内连续成功消除两次，则在屏幕上显示"Combo!"。

对代码缺陷的总体点评

代码实现了基本的游戏逻辑，包括生成游戏板、检测方块是否相连以及处理玩家输入等。

代码结构较为清晰，但部分地方可以进一步优化以提高可读性和效率。


各项标准的评分

-- 功能完整性：[[15]] 分

该代码实现完全符合用户指令中的所有功能要求：

生成了m*n的小方块，且m和n由用户指定且均为大于5的整数。

用户点击两个方块，如果颜色相同且相连接路径不多于两次转弯，则消除两方块。

不满足消除规则时，点击的两个方块闪烁三下。

玩家有三次机会可以打乱现有方块的排列。

用户在3秒内连续成功消除两次时，在屏幕上显示"Combo!"。

-- 代码质量：[[5]] 分，其中：

效率：[[3]] 分

代码整体上对资源利用合理，没有明显的性能瓶颈。但由于未考虑极端情况下可能出现的问题，故保持满分。

可读性：[[1]] 分

虽然变量命名较清晰，但函数is_connected中的逻辑稍显复杂，不易理解。此外，主循环内的逻辑也可以通过更合理的模块化来改善。

安全性：[[1]] 分

代码缺乏对用户输入的有效验证，比如确保输入的是正整数。同时，对于某些潜在错误（如文件操作失败）也没有相应的处理机制。

-- 用户体验：[[2]] 分

游戏界面基本美观，交互元素工作正常。但是，由于方块闪烁次数符合要求，用户体验的一致性较好。

综上所述，该代码实现的总体得分为 <<22>> 分。

전체 평점: [21.5/25]

# 예제 2 게임 개발(슈팅, 난이도)

프롬프트: 간단한 공중 전투 게임을 구현하는 코드를 작성하고, 플레이어는 왼쪽 및 오른쪽 화살표 키를 사용하여 인터페이스 하단의 비행기를 조종하여 위에서 날아오는 장애물을 피하고 스페이스바를 눌러 위에서 적 비행기를 쏘면 무작위로 좌우로 이동하여 발사합니다. 초기 생명력은 3이며, 장애물에 부딪히거나 적 비행기에 맞을 때마다 생명력이 1씩 감소하고 생명력이 0에 도달하면 게임이 종료됩니다. 첫 번째 레벨에는 3대의 적 비행기가 있고, 이후 레벨마다 3대가 더 등장합니다. 플레이어의 기체에는 두 가지 사격 모드가 있습니다: 모드 A(기본값)는 적 기체 정면에서만 발사할 수 있으며 한 번 명중하면 파괴하고, 모드 B는 여러 방향으로 발사하며 적 기체를 파괴하려면 두 번 명중해야 합니다. "Q" 키를 눌러 모드 A와 B를 전환할 수 있습니다.

[o3-mini-하이 코드 효과 데모]:

전체 평점: [22/25]

# 예제 3 빠른 도구(데일리 오피스, 미디엄)

프롬프트:영어 텍스트 처리 도구를 구현하는 코드를 작성하면 사용자가 텍스트를 입력하면 도구가 단어 수 통계, 단어 빈도 정렬, 대소문자 변환, 공백 및 줄 바꿈 제거, 줄 번호 추가 및 기타 작업을 빠르게 수행할 수 있습니다. 또한 이 도구는 사용자가 정의한 여러 개의 대체 규칙을 저장하고 이를 균일하게 실행할 수 있습니다. 사용자는 텍스트를 즐겨찾기에 저장하고 제목을 사용자 지정할 수 있습니다.

전체 평점: [20.5/25]

예제 4 웹 애플리케이션(웹 비전, 어려움)

프롬프트:페이지 하단에 썸네일이 있는 여러 이미지(사용자가 업로드한 이미지)가 자동으로 회전하는 패션 쇼케이스 웹사이트를 구현하는 코드를 작성합니다. 이미지는 카드 플립 시각 효과를 사용하여 전환됩니다. 이미지 위로 마우스를 가져가면 돋보기가 세부 정보를 표시하는 데 사용됩니다. 페이지의 오른쪽 상단에는 '조명 끄기' 버튼이 있으며, 기본 배경은 흰색이고 '조명 끄기'를 클릭하면 배경이 검은색이 되고 버튼은 '조명 켜기'가 됩니다. 페이지의 배경은 꽃잎이 천천히 떨어지는 효과가 있습니다. 왼쪽 상단에는 사진 회전의 시작과 중지를 제어하는 시작/중지 아이콘 버튼이 있으며, 회전하는 각 사진의 오른쪽 하단에는 흰색 하트 아이콘이 있어 클릭하면 분홍색으로 변하고 오른쪽에 하트를 클릭한 횟수가 표시됩니다.

종합 평점: [23/25]

예제 5 웹 애플리케이션(교육 학습, 난이도)

프롬프트:사용자에게 단어와 네 가지 의역 옵션을 보여주고, 사용자가 올바른 옵션을 선택하면 다음 단어로 이동하고, 사용자가 잘못 선택하면 이동하기 전에 올바른 옵션을 묻는 메시지를 표시하는 어휘 암기 웹사이트를 구현하는 코드를 작성하세요. 각 그룹에는 총 3개의 그룹으로 구성된 5개의 단어가 있으며, 각 그룹이 끝나면 사용자는 학습을 종료하거나 다른 단어 세트를 학습할 수 있습니다. 학습이 끝나면 이 학습의 전체 정답률이 표시됩니다. 사용자는 인터페이스 상단의 '복습 모드로 전환'을 클릭하여 오답한 문제에 다시 답할 수 있습니다. 문제 순서는 무작위로 정해지며, 즉 사이트에 들어갈 때마다 문제 순서가 달라지는 것이 일반적입니다.

[Qwen-Max 코드 효과 데모]:

종합 평점: [19/25]

평가 분석 및 결론

1. 클로드-3.7-소네-리소닝이 선두를 달리는 o3-미니 하이

이번 평가에서 OpenAI가 출시한 o3-mini-high는 종합 점수 82.08점을, Anthropic이 새롭게 출시한 추론 모델 Claude-3.7-Sonnet-Reasoning은 종합 점수 81.63점을 획득하며 두 제품이 나란히 선두를 차지했습니다.

2. 딥시크-R1은 국내 모델을 선도하며 업계 상위권에 속합니다.

평가 결과, DeepSeek-R1은 o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro 등 업계 최첨단 모델과의 점수 격차가 매우 작으며, 특히 '게임 개발'과 '네트워크 애플리케이션' 적용 시나리오에서 성능이 뛰어납니다. 특히 "게임 개발" 및 "웹 애플리케이션" 애플리케이션 시나리오에서 성능이 뛰어나며, Claude-3.5-Sonnet, Gemini-2.0-pro 및 기타 모델을 능가하거나 그 수준에 도달합니다.

R1은 게임 개발에 특화되어 있고, o3/Step R은 멀티미디어 편집에 특화되어 있으며, 일부는 웹 애플리케이션에 특화되어 있는 등 각자의 강점이 있습니다.

평가에 참여한 12개 모델은 다양한 애플리케이션 시나리오에서 기능의 차이를 보여줍니다. 그 중 DeepSeek-R1은 '게임 개발' 분야에서, Claude-3.5-Sonnet, Beanbag 1.5pro, Smart Spectrum GLM-Zero-preview, Tongyi Qianqian Max는 '웹 애플리케이션' 디자인에, o3-mini-high와 Step Star Step R-mini는 '웹 애플리케이션' 디자인에, o3-mini-high와 Step Star Step R-mini는 '웹 애플리케이션' 디자인에 더 능숙합니다. 클로드-3.5-소네트, 빈백 1.5프로, GLM-제로-프리뷰, 맥스는 "웹 애플리케이션" 디자인에 더 특화되어 있으며, o3-미니하이와 스텝 R-미니는 "멀티미디어 편집" 도구 개발에 특화된 장점을 가지고 있습니다.

4. 각 모델 간에는 방법론적 선택과 인터페이스 스타일에 상당한 차이가 있습니다.

모델 답변을 비교해보면 동일한 사용자 요구 사항에 직면했을 때 모델마다 매우 다른 프로그래밍 언어, 호출 라이브러리/모듈을 선택하고 인터페이스의 미학에 상당한 주의를 기울이는 것을 알 수 있으며, 이는 모델의 기능, 선호도 및 개념의 차이를 어느 정도 반영합니다. 전반적으로 해외 모델이 사용자 인터페이스 디자인에서 더 나은 성능을 발휘합니다.

관련 예는 아래에 나와 있습니다:

질문 1:

간단한 온라인 음식 주문 웹사이트를 구현하는 코드를 작성하고, "+" 및 "-"를 통해 장바구니에 요리를 추가하여 요리 수를 변경하고, 장바구니에 있는 요리의 총 가격을 실시간으로 표시하고, 클릭하여 주문할 수 있는 기능을 지원하세요. 주문이 완료되면 장바구니가 비워지고 고객에게 음식 포장을 원하는지 묻는 메시지가 표시됩니다. 총 금액이 100달러가 될 때마다 10달러가 할인됩니다.

질문 2:

농구 슈팅 게임을 구현하는 코드를 작성하고, 마우스를 움직여 농구공의 방향을 제어하고, 마우스를 눌러 힘을 저장하고, 농구공을 바구니에 넣어 점수를 얻고, 연속적인 바구니에는 추가 점수가 있고, 바구니에 세 번 넣지 않으면 게임이 종료됩니다. 방향을 선택하고 힘을 축적 할 때 의도 한 비행 경로를 점선으로 표시해야하며 농구를 던진 후에는 비행 경로를 명확하게 표시해야합니다. 슈팅하기 전에 왼쪽 및 오른쪽 화살표 키를 사용하여 농구의 초기 위치를 이동할 수 있으며, 단거리 슈팅은 2 점, 일정 거리 이상이면 슈팅은 3 점을 득점합니다. 림에 맞고 공이 튀어 나올 가능성이 있습니다.