2025年2月26日、SuperCLUEはプロジェクトレベルのコード生成(SuperCLUE-Project)測定ベンチマークの初回リストを発表した。
評価プログラムについては、プロジェクトレベルコード生成評価ベンチマークリリースをご覧ください。本評価は、ビッグモデルの「ジャッジパネル」の協力のもと、ゲーム開発、ツール、管理システムなど5つのアプリケーションシナリオを対象に、プロジェクトレベルのコード生成タスクにおける国内外のビッグモデル12機種の能力を評価するものです。以下に詳細な評価レポートを掲載する。
プロジェクトレベルのコード測定結果のまとめ
概要1: o3-ミニハイとクロード-3.7-ソネット-推論がリードしている
今回の評価では、OpenAIがリリースしたo3-mini-highが82.08、Anthropicが新たにリリースした推論モデルClaude-3.7-Sonnet-Reasoningが81.63の総合スコアを獲得し、両者が手を取り合って首位に立った。
概要2:DeepSeek-R1が国内モデルをリードし、業界トップクラスにランクイン
評価結果から、DeepSeek-R1と業界の最先端モデルであるo3-mini-high、Claude-3.5-Sonnet/3.7-Sonnet-Reasoning、Gemini-2.0-proとのスコア差は極めて小さく、アプリケーションのシナリオによっては一定の優位性を獲得している。
まとめ3:それぞれに強みがある。r1はゲーム開発、o3/Step Step Rはマルチメディア編集、そしていくつかはウェブアプリケーションに特化している。
例えば、DeepSeek-R1は「ゲーム開発」の分野で傑出しており、Claude-3.5-Sonnet、Beanbag 1.5pro、Tongyiqianqian Maxは「ウェブアプリケーション」の設計により特化しているなどである。Claude-3.5-Sonnet、Beanbag 1.5pro、Tongyiqianqian Maxは「ウェブアプリケーション」設計により特化しており、StepStar Step R-miniは「マルチメディア編集」ツールの開発などで独自の優位性を持っている。
要旨4:モデルによって、方法論の選択、インターフェースのスタイルが著しく異なる。
モデルの回答を比較すると、同じユーザー要件に直面しても、モデルによって選択するプログラミング言語、ライブラリ/モジュールの呼び出し方、インターフェイスの美観が大きく異なることがわかる。
リストの概要
SuperCLUE-プロジェクト評価システム
SuperCLUE-Projectは、ユーザーのプロジェクトレベルの要求をコード実装に変換する大規模モデルの能力を検証するために設計された、中国語ネイティブのプロジェクトレベルのコード評価ベンチマークです。
SuperCLUE-Projectは、ノンプログラマーのユーザーグループの実際のニーズに焦点を当て、5つの第一レベルの次元と18の第二レベルの次元をカバーし、中国語の自然言語で質問セットを構築します。ノンプログラマコミュニティの特性を考慮し、トピック設計では要求記述の機能レベルのみを重視し、効率性、安全性、可読性などの指標を、評価セッションで評価される大規模モデルプレイヤーの独立した能力として位置づけています。
さらに、ベンチマークには、モデルのプロジェクトレベルのコード実装能力をより深く理解するために、同じトピックセットに対して全体的にスケーリングされた3つの難易度、簡単 - 中 - 複雑がある。
方法論
SuperCLUEのきめ細かな評価アプローチを参考に、以下のプロセスで評価を行う:
1) 測定セットの構成
1.大規模なモデル支援によるローコード/ゼロコード開発分野のダイナミクスを懸念し、ノンプログラマー・グループのコード・プロジェクト要件を収集、照合する。
2.簡単な難易度のプロジェクトレベルのコード評価セットを書く
3.書式と語数の範囲を制御して、評価セットを中級/複雑な難易度レベルに拡張する。
4.テストと手動校正
2) 採点プロセス
1.評価ルールの作成(プロンプト) ---> 評価ルールの作成(プロンプト)
2.レフリーモデルの評価と人間の専門家の評価の整合性を手作業でチェックする小規模テスト ---> 。
3.一貫性フィードバックに基づく評価ルールの反復チューニング ---> 。
4.完全な評価を受けるために、テストされるモデルの応答と評価ルールの完全なセットを2つの審判モデルにそれぞれ渡す --->。
5.各次元における2つの裁定モデルの得点の平均を最終結果として算出する。
3)人間コヒーレンス分析
測定セットの層別サンプリングは、グループ内相関係数を計算し、そのパフォーマンスを報告することによって、レフリーモデルの評価と人間の専門家の評価の一貫性をテストするために行われた。
SuperCLUE-Projectでは、従来のベンチマークと比較して、評価の実施において初めて国産モデルと海外モデル(Gemini-2.0-flashとQwen-Max)の両方をレフェリーとして導入し、「レフェリーチーム」の協力により、大型モデルの偏りや選好の問題をさらに軽減している。(レフェリーチーム」の協力により、大型モデルの偏りや選好の問題はさらに軽減される)。
また、SuperCLUE-Projectでは、レフリーモデルの信頼性を検証するために、クラス内相関係数(ICC)を初めて導入し、人間の専門家の評価、Qwen-Max、Gemini-2.0-flash(ICC(3,k))指標を算出し、レフリーモデルが人間の評価と強く一致することを検証した。過去のパーセンテージ信頼性と比較して、この方法はランダムエラーの変動効果を効果的に克服している。
(グループ内相関係数(ICC)は、観察者間信頼性やテスト・リテスト信頼性を測定・評価するための信頼性係数指標の一つで、1966年にBartkoによって信頼性の大きさを測定・評価するために初めて用いられた。ICCは、個人のばらつきを全体のばらつきで割ったものに等しい。この実験では、選択されたレフェリー・モデルと人間の専門家の評価との間の一貫性だけを考慮すればよく、他の評価者に拡張する必要がないため、二元混合効果指数を一貫性指数として選択した)。
評価基準
- Functional Integrity(60%):コードがユーザー命令に記述されたすべての機能を完全に実装していることを保証する。
- コード品質(28%):効率性、可読性、セキュリティの観点からコードの性能を評価する。具体的には以下が含まれる:
a. 効率性(12%):リソースの使用、DOM操作、データベース/大規模データセットの処理、計算、API呼び出しの点でコードが十分に最適化されているかどうか。
b. 読みやすさ(8%):コードが、(1) 明確な命名と一貫した書式の使用、(2) コードベースのモジュールへの論理的な分割、(3) 明確なプロジェクト構造の維持を実施しているかどうか。
c. セキュリティ(8%): コードに(1)明らかなセキュリティホールがないか、(2)基本的な例外を効果的に処理できるか。
- ユーザー・エクスペリエンス(12%):インタラクティブな要素(ボタンやフォームなど)の適切な機能や、インターフェイス全体の基本的な美しさなど、ユーザー・インターフェイスのデザインと美観の質を評価する。
SuperCLUE-Projectは、これまでの評価基準の設計と比較して、比較的バランスの取れた採点メカニズムを変更し、一般ユーザーが最も気にする能力でもある機能的な実装面の採点ウェイトを大幅に強調しました。
さらに、SuperCLUE-Projectの評価基準では、減点方式の採点モードが規定されている。つまり、デフォルトの満点をベースに、設問と対応するコード実装の比較に基づいて、設問の要件を満たしていない部分を減点する。このような一問一答の個別評価方式では、減点方式は、複数の回答の相対的な質を調べるという大型模範解答の欠点をある程度補い、大型模範解答の評価を緩和します。確率論.
参加モデル
プロジェクトレベルのコード要件を解決するための国内外の大型モデルの現在の能力レベルを総合的に測定するため、今回の評価では、代表性の高い国内モデル7機種と海外モデル5機種を選定した。
評価結果
全体リスト
アプリケーション・シナリオ一覧 
レビューと人間整合性分析
SuperCLUE-Projectベンチマークの人間の専門家との整合性を科学的に評価するために、評価結果から総合的なパフォーマンスが良い、平均的、悪い3つのモデルを選択し、33の質問と答えのペアを層別化し、2つのレフェリーモデルによる手動独立採点と質問ごとの採点を実施し、3つのスコアの合計の整合性の割合、グループの相関係数を報告し、大きなモデルの専門性を科学的に検証した。レフェリー・パネル」採点のプロフェッショナリズムを科学的に検証した。
注:ICC-3kの値が0.75以上であれば、一般的に評価者間の一致度が高いことを示すと考えられている。
評価事例
例1 ゲーム開発(パズル、難易度)
プロンプト点つなぎゲームを実装するコードを書き、ランダムに多色で間隔が狭いm * n個の小さな立方体(ゲームを始める前にユーザーが指定したm, nは5以上の整数)を出現させ、ユーザーが2つの立方体をクリックし、色が同じで、接続されたパス(水平方向と垂直方向のみ許可)が2ターン以上なければ、2つの立方体を消去する。まばたきを3回する。プレイヤーは既存のマスの配置を崩すチャンスが3回ある。3秒以内に2つのマスを連続して消すことに成功すると、画面に「コンボ!」と表示される。
ビッグモデルRef1(Gemini-2.0-flash):
使用説明書に含まれる要件(独自の分析に基づく) 1.ゲームインターフェースの作成mとnはユーザが指定する(5以上の整数)。 2.立方体の色のランダム化複数の色の正方形をランダムに生成し、それぞれの色が偶数回出現するようにする。 3.消去ルール同じ色の2つのマスをクリックし、その2つのマスが2回転以内で結ばれるようにします。 4.エラーのヒントもしユーザーがクリックした2つのマスが消去ルールを満たさない場合、クリックしたマスは3回点滅する。 5.ディスラプション機能合計3回までマスの配置を崩すことができる。 6.ストライク報酬3秒以内に2回連続で成功すると「コンボ!」と表示される。 コード不具合の総点検 このコードは、マスのランダム生成、消去ルール、エラーアラート、アップセット機能、コンボボーナスを実装した基本的なコンボゲームを実装している。しかし、このコードにはユーザーエクスペリエンスと効率の面でいくつかの欠点がある。例えば、マスの点滅がスムーズでなかったり、マスを消した後のインターフェイスの更新がタイムリーでなかったりする。 各基準のスコア -- 機能的完全性:[[15]]点 (ランダム生成マス、消去ルール、混乱機能、コンボボーナスを含む全ての機能が実装されている。コアとなる機能はすべて実装されているので減点はない)。 -- コードの質:[[5]]点: 効率:[[2]]点 (このコードは、すべての色のリストを作成し、それをランダムに破壊することによってボードを生成する。このアプローチは、mとnが大きい場合に効率に影響を与える可能性がある。さらに、2つのマスを消去できるかどうかを決定する際に、幅優先探索アルゴリズムが使用される。このアルゴリズムは最短経路を見つけることができるが、大規模なボードでは時間がかかる可能性がある。よって1点減点) 読みやすさ:[[2]]点 (コードの命名は概ね明確であるが、一部のコードブロックのコメントが不十分である。例えば、幅優先探索アルゴリズムの説明が詳細でない。コードの全体的な構造は良いが、ゲームロジックをインターフェイスの描画から分離するなど、さらにモジュール化してもよい。したがって、減点はしない)。 セキュリティ: [[1]]点 (コードに明らかなセキュリティホールはありませんが、mとnのユーザー入力に対して、ユーザーが整数以外の数値を入力した場合など、他の例外を考慮せず、単純な値の範囲チェックしか行っていません。よって1点減点) -- ユーザ体験: [[1]]点 (ゲームのインターフェイスは基本的に動作しているが、ブロックの点滅エフェクトがスムーズでなく、ブロックを消した後のインターフェイスの更新がタイムリーでない。また、効果音やアニメーション効果も不足しており、ユーザーエクスペリエンスの改善が必要である。よって2点減点) まとめると、このコード実装の総合得点は<>点である。
ビッグモデルのレフェリー2(Qwen-Max):
使用説明書に含まれる要件(独自の分析に基づく) 1.ゲームインターフェイスは、様々な色のm*n個の立方体を、ランダムに接近して配置する。 2.ユーザが2つのキューブをクリックしたとき、色が同じで、連結された経路(水平方向と垂直方向のみ可)が2回転以上しない場合、両方のキューブは排除される。 3.消去ルールが満たされない場合、クリックされた2つのマスは3回点滅する。 4.プレーヤーは3回、既存のマスの配置を崩すチャンスがあります。 5.3秒以内に2つのマスを連続して消すことに成功すると、画面に「コンボ!」と表示されます。 コードの欠陥に関する総評 ゲームボードの生成、ブロックがつながっているかどうかの検出、プレイヤーの入力処理など、基本的なゲームロジックを実装している。 コード構造は比較的明確だが、可読性と効率を高めるためにさらに最適化できる部分もある。 各基準の採点 -- 機能的完全性:[[15]]点 コードの実装がユーザー指示のすべての機能要件に完全に準拠している: m*n の小さな立方体が生成され,m と n はユーザによって指定され,両方とも 5 より大きい整数である. ユーザは2つの正方形をクリックし、色が同じで、接続されたパスが2回転以上しない場合、両方の正方形が消去される。 消去ルールが満たされない場合、クリックされた2つのマスは3回点滅する。 プレイヤーは既存のマスの配置を崩すチャンスが3回ある。 3秒以内に2つのマスを連続して消すことに成功すると、画面に「コンボ!」と表示されます。 -- Code Quality: [[5]]点: 効率:[[3]]点 コード全体としてリソースを合理的に使用しており、明らかなパフォーマンスのボトルネックはない。ただし、極端なケースで起こりうる問題が考慮されていないため、満点は維持される。 可読性:[[1]]点 変数の命名は明確ですが、is_connected関数内のロジックはやや複雑で、理解しやすいとは言えません。また、メインループ内のロジックは、より賢明なモジュール化によって改善される可能性があります。 セキュリティ:[[1]]点 このコードには、入力が正の整数であることを保証するような、ユーザー入力の効果的なバリデーションが欠けています。また、特定の潜在的なエラー(ファイル操作の失敗など)を処理するメカニズムがありません。 -- ユーザーエクスペリエンス: [[2]]点 ゲームのインターフェースは基本的に美しく、インタラクティブな要素も問題なく動作する。しかし、四角の点滅の回数が要件を満たしているので、ユーザー体験の一貫性はより良い。 まとめると、このコード実装の総合得点は<>点である。
総合評価:[21.5/25]
# 事例2 ゲーム開発(シューティング、難易度高)
プロンプト: シンプルな空戦ゲームを実装するコードを書いてください。プレイヤーはインターフェイスの下部にある飛行機を左右の矢印キーで操作して、上から飛んでくる障害物を避け、スペースバーを押して上空から敵機を撃ちます。敵機はランダムに左右に移動して発砲します。ライフの初期値は3で、障害物に当たったり敵機に当たったりするたびにライフが1減り、ライフが0になるとゲームが終了する。敵機は最初のレベルで3機、その後の各レベルでさらに3機登場する。モードA(デフォルト)は敵機の正面にしか撃てず、1発で破壊します。モードBは多方向に発射し、敵機を破壊するには2発当てる必要があります。モードAとモードBの切り替えは "Q "キーで行う。
[O3-ミニハイ・コード・エフェクト・デモ]:
総合評価:[22/25]
# クイックツール3例(デイリーオフィス・中)
プロンプト英文テキスト処理ツールを実装するためのコードを記述し、ユーザーがテキストを入力すると、ツールは単語数の統計、単語の頻度の並べ替え、大文字と小文字の変換、スペースと改行の削除、行番号の追加、およびその他の操作を迅速に実行することができます。さらに、このツールは、複数のユーザー定義置換ルールを保存し、それらを統一的に実行することができます。ユーザーは、テキストをお気に入りに保存し、タイトルをカスタマイズすることができます。
総合評価:【20.5/25
例4 ウェブアプリケーション(ウェブビジョン、難しい)
プロンプト複数の画像(ユーザーがアップロードしたもの)が自動的に回転し、サムネイルがページ下部に表示されるファッションショーケースのウェブサイトを実装するコードを書いてください。画像はカードフリップの視覚効果を使って切り替わります。画像にカーソルを合わせると、虫眼鏡で詳細が表示されます。ページの右上には「ライトを消す」ボタンがあり、デフォルトでは背景が白で、「ライトを消す」をクリックすると背景が黒になり、ボタンは「ライトをつける」になります。ページの背景は花びらがゆっくりと落ちていくような効果があります。左上には写真の回転の開始と一時停止をコントロールするスタート/ポーズアイコンボタンがあり、回転する写真の右下には白いハートアイコンがあり、クリックするとピンクに変わり、右側にはハートをクリックした回数が表示されます。
総合評価:[23/25]
例5 ウェブアプリケーション(教育学習、難易度)
プロンプトユーザーが正しい選択肢を選ぶと次の単語にジャンプし、間違った選択肢を選ぶとジャンプする前に正しい選択肢を入力するよう促される。各グループには5つの単語、合計3つのグループがあり、各グループの終了後、ユーザーは学習を終了するか、別の単語セットを学習するかを選択できる。学習終了後、この学習全体の正解率が表示される。ユーザーは、インターフェースの上部にある「復習モードに切り替える」をクリックすることで、不正解だった問題に再度答えることができます。問題の順番はランダムです。つまり、サイトに入るたびに問題の順番は通常異なります。
[Qwen-Maxコード効果デモ]:
総合評価:[19/25]
評価分析と結論
1. o3-ミニハイ、クロード-3.7-ソネット-リーズニングがリード
今回の評価では、OpenAIがリリースしたo3-mini-highが82.08の総合スコアを獲得したのに対し、Anthropicが新たにリリースした推論モデルClaude-3.7-Sonnet-Reasoningは81.63の総合スコアを獲得し、両者が並んで首位に立った。
2.DeepSeek-R1は国内モデルをリードし、業界トップクラスに位置する。
評価結果から、DeepSeek-R1 は、o3-mini-high、Claude-3.5-Sonnet/3.7-Sonnet-Reasoning、Gemini-2.0-pro などの業界最先端モデルとのスコア差が非常に小さく、特に「ゲーム開発」と「ネットワークアプリケーショ ン」のアプリケーションシナリオで卓越した性能を発揮している。特に "ゲーム開発 "と "Webアプリケーション "のアプリケーション・シナリオにおいて、その性能は卓越しており、Claude-3.5-Sonnet、Gemini-2.0-proやその他のモデルを凌ぐか、あるいはそのレベルに達している。
3.それぞれに強みがあり、R1はゲーム開発、o3/Step Rはマルチメディア編集、そしていくつかはウェブアプリケーションに特化している。
評価に参加した12機種は、さまざまな応用シーンにおける能力の違いを示している。その中で、DeepSeek-R1は「ゲーム開発」の分野で傑出しており、Claude-3.5-Sonnet、Beanbag 1.5pro、Smart Spectrum GLM-Zero-preview、Tongyi Qianqian Maxは「ウェブアプリケーション」の設計に長けており、o3-mini-highとStep Star Step R-miniは「ウェブアプリケーション」の設計に長けている。Claude-3.5-Sonnet、Beanbag 1.5pro、GLM-Zero-preview、Maxは「ウェブアプリケーション」デザインにより特化しており、o3-mini-highとStep R-miniは「マルチメディア編集」ツールの開発において独自の優位性を持っている。
4.異なるモデルの間には、方法論の選択やインターフェースのスタイルに大きな違いがある。
モデルの回答を比較すると、同じユーザー要件に直面しても、モデルによって選択するプログラミング言語、ライブラリ/モジュールの呼び出し方、インターフェイスの美的センスなどが大きく異なっており、モデルの能力、好み、コンセプトの違いがある程度反映されていることがわかる。全体的に、海外モデルの方がユーザー・インターフェース・デザインにおいて優れたパフォーマンスを発揮している。
関連する例を以下に挙げる:
質問1:
シンプルなオンライン料理注文サイトを実装するためのコードを書く。「+」と「-」で料理の数を変更し、ショッピング・カートに料理を追加することをサポートし、ショッピング・カート内の料理の合計価格をリアルタイムで表示し、注文するためにクリックする機能をサポートする。注文後、ショッピングカートは空になり、客は料理を詰めるかどうか尋ねられる。合計金額100ドルごとに、10ドルの割引があるはずだ。
質問2:
バスケットボールのシュートゲームを実装するためのコードを記述し、マウスの動きは、バスケットボールの方向を制御するために、電力を蓄積するためにマウスを押して、バスケットボールにバスケットボールが得点に、連続バスケットは、バスケットに3回ではなく、追加のポイントを持っている、その後、ゲームの終了。バスケットボールを投げた後、その飛行経路を明確に示す必要があります。シュートする前に、左右の矢印キーでバスケットボールの初期位置を移動することができ、近距離のシュートは2点、一定距離以上のシュートは3点になります。リムに当たってボールにバウンドする可能性があります。