Les résultats de la génération de code au niveau du projet sont disponibles ! o3/Claude 3.7 est en tête, R1 est dans le peloton de tête !

Nouvelles de l'IAPosté il y a 6 mois Cercle de partage de l'IA

9.1K 00

Le 26 février 2025, SuperCLUE a publié la liste inaugurale des critères de mesure de la génération de code au niveau du projet (SuperCLUE-Project).

Pour le programme d'évaluation, voir : Project-level Code Generation Evaluation Benchmark Release. Basée sur la coopération du "panel de juges" des grands modèles, cette évaluation porte sur la capacité de 12 grands modèles nationaux et internationaux à réaliser des tâches de génération de code au niveau du projet, qui couvrent 5 catégories de scénarios d'application, y compris le développement de jeux, d'outils et de systèmes de gestion. Le rapport d'évaluation détaillé est présenté ci-dessous.

Résumé des mesures du code au niveau du projet

Résumé 1 : o3-mini-high et Claude-3.7-Sonnet-Raisonnement sont en tête.

Dans cette évaluation, le modèle o3-mini-high d'OpenAI a obtenu un score composite de 82,08, et le modèle de raisonnement Claude-3.7-Sonnet-Reasoning récemment publié par Anthropic a atteint un score composite de 81,63, les deux étant main dans la main en tête de la liste.

Résumé 2 : DeepSeek-R1 est en tête des modèles nationaux et se classe parmi les meilleurs de l'industrie

D'après les résultats de l'évaluation, l'écart de score entre DeepSeek-R1 et les modèles de pointe de l'industrie, tels que o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning et Gemini-2.0-pro, est extrêmement faible, et atteint même une certaine position de leader dans certains scénarios d'application.

Résumé 3 : Chacun a ses propres atouts. r1 est spécialisé dans le développement de jeux, o3/Step Step R est spécialisé dans l'édition multimédia, et plusieurs sont spécialisés dans les applications web.

Les 12 modèles participant à l'évaluation montrent la différence de capacité dans les différents scénarios d'application, par exemple, DeepSeek-R1 est remarquable dans le domaine du "développement de jeux", Claude-3.5-Sonnet, Beanbag 1.5pro et Tongyiqianqian Max sont plus spécialisés dans la conception d'"applications web" et ainsi de suite. Claude-3.5-Sonnet, Beanbag 1.5pro et Tongyi Qianqian Max sont plus spécialisés dans la conception d'"applications web", tandis que StepStar Step R-mini possède un avantage unique dans le développement d'outils d'"édition multimédia", etc.

Résumé 4 : Les modèles diffèrent de manière significative en ce qui concerne les choix méthodologiques, les styles d'interface, etc.

La comparaison des réponses des modèles montre que, face aux mêmes exigences des utilisateurs, les différents modèles choisissent des langages de programmation très différents, appellent des bibliothèques/modules et accordent une grande attention à l'esthétique de l'interface, ce qui, dans une certaine mesure, reflète les différences dans les capacités, les préférences et les concepts du modèle.

Aperçu de la liste 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

Système d'évaluation des projets SuperCLUE

SuperCLUE-Project est un benchmark d'évaluation de code au niveau du projet en langue chinoise, conçu pour examiner la capacité des grands modèles à transformer les exigences des utilisateurs au niveau du projet en implémentations de code. 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

Le projet SuperCLUE se concentre sur les besoins réels du groupe d'utilisateurs non programmateurs, en couvrant 5 dimensions de premier niveau et 18 dimensions de second niveau, et en construisant les ensembles de questions en langue naturelle chinoise. Compte tenu des caractéristiques de la communauté des non-programmeurs, nous ne mettons l'accent que sur le niveau fonctionnel de la description des exigences dans la conception du sujet, et nous considérons l'efficacité, la sécurité, la lisibilité et d'autres indicateurs comme les capacités indépendantes des candidats au grand modèle à évaluer lors de la session d'évaluation.

En outre, les critères de référence comportent trois niveaux de difficulté, facile - moyen - complexe, qui sont échelonnés de manière holistique pour le même ensemble de sujets afin de fournir un aperçu plus approfondi des capacités de mise en œuvre du code des modèles au niveau du projet.

Méthodologie

En se référant à l'approche d'évaluation fine de SuperCLUE, le processus suivant est suivi pour réaliser l'évaluation :

1) Construction d'un ensemble de mesures

1. préoccupés par la dynamique du domaine du développement à code bas/zéro assisté par modèle, recueillir et collationner les exigences des projets de code des groupes de non-programmeurs

2. rédiger des ensembles d'évaluation de codes au niveau du projet, de difficulté simple

3. contrôler le format et le nombre de mots afin d'étendre l'évaluation à des niveaux de difficulté modérés/complexes

4. essais et étalonnage manuel

2) Processus de notation

1. préparation des règles d'évaluationprompt --->

2. des tests à petite échelle pour vérifier manuellement la cohérence des évaluations du modèle d'arbitrage avec celles des experts humains --->

3. réglage itératif des règles d'évaluation sur la base d'un retour d'information sur la cohérence --->

4. transmettre l'ensemble des réponses et des règles d'évaluation du modèle à tester aux deux modèles arbitres pour qu'ils reçoivent respectivement les évaluations complètes --->

5. calculer la moyenne des scores des deux modèles d'adjudication dans chaque dimension comme résultat final.

3) Analyse de la cohérence humaine

Un échantillonnage stratifié de l'ensemble des mesures a été effectué pour tester la cohérence des évaluations du modèle d'arbitrage avec celles des experts humains en calculant le coefficient de corrélation intra-groupe et en rendant compte de cette performance.

Par rapport aux références précédentes, le projet SuperCLUE introduit pour la première fois des modèles nationaux et étrangers (Gemini-2.0-flash et Qwen-Max) en tant qu'arbitres dans la mise en œuvre de l'évaluation, ce qui réduit encore les problèmes de partialité et de préférence du grand modèle grâce à la coopération de l'"équipe d'arbitres". (Grâce à la coopération de l'"équipe d'arbitres", les problèmes de partialité et de préférence du grand modèle sont encore réduits.

En outre, afin de vérifier la fiabilité du modèle d'arbitrage, SuperCLUE-Project introduit pour la première fois le coefficient de corrélation intra-classe (ICC) et calcule les effets mixtes bidirectionnels des évaluations des experts humains, Qwen-Max et Gemini-2.0-flash (ICC(3,k)). ICC(3,k)), le modèle d'arbitre a été vérifié comme étant fortement cohérent avec les évaluations humaines. Par rapport au pourcentage de fiabilité utilisé par le passé, la méthode permet de surmonter efficacement les effets fluctuants des erreurs aléatoires.

(*Note : Le coefficient de corrélation intragroupe (ICC) est l'un des indices de coefficient de fiabilité permettant de mesurer et d'évaluer la fiabilité inter-observateur et la fiabilité test-retest ; il a été utilisé pour la première fois par Bartko en 1966 pour mesurer et évaluer l'ampleur de la fiabilité. L'ICC est égal à la variabilité d'un individu divisée par la variabilité totale. Dans cette expérience, l'indice des effets mixtes à deux voies a été choisi comme indice de cohérence parce que nous n'avons besoin de considérer que la cohérence entre le modèle d'arbitre sélectionné et les évaluations de l'expert humain, et qu'il n'est pas nécessaire de l'étendre à d'autres évaluateurs).

Critères d'évaluation

Intégrité fonctionnelle (60%) : garantit que le code met pleinement en œuvre toutes les fonctions décrites dans les instructions de l'utilisateur.
Qualité du code (28%) : évaluation des performances du code en termes d'efficacité, de lisibilité et de sécurité. Il comprend en particulier

a. Efficacité (12%) : si le code est suffisamment optimisé en termes d'utilisation des ressources, de manipulation du DOM, de traitement des bases de données/ensembles de données volumineux, de calcul ou d'appels à l'API.

b. Lisibilité (8%) : le code met en œuvre (1) l'utilisation de noms clairs et d'un formatage cohérent ; (2) la division logique de la base de code en modules ; et (3) le maintien d'une structure de projet claire.

c. Sécurité (8%) : le code (1) ne présente pas de failles de sécurité évidentes ; et (2) peut gérer efficacement les exceptions de base.

Expérience utilisateur (12%) : évalue la qualité de la conception et de l'esthétique de l'interface utilisateur, y compris le bon fonctionnement des éléments interactifs (boutons, formulaires, etc.) et l'esthétique de base de l'interface globale.

Par rapport à la conception des critères d'évaluation du passé, SuperCLUE-Project a modifié le mécanisme de notation relativement équilibré, en renforçant considérablement le poids de l'aspect fonctionnel de la mise en œuvre, qui est également la capacité qui préoccupe le plus les utilisateurs ordinaires.

En outre, les critères d'évaluation du projet SuperCLUE spécifient le mode de notation du système de déduction, c'est-à-dire que sur la base de la note complète par défaut, la partie de la note qui ne répond pas aux exigences des questions sera déduite sur la base de la comparaison entre les questions et les implémentations de code correspondantes. Pour ce type de méthode d'évaluation individuelle question par question, le système de déduction de points compense dans une certaine mesure les lacunes de l'arbitre du grand modèle en ce qui concerne l'examen de la qualité relative des réponses multiples, et atténue les inconvénients de l'évaluation du grand modèle en ce qui concerne la qualité relative des réponses multiples.Stochasticité.

Modèles participants

Afin de mesurer de manière exhaustive la capacité actuelle des grands modèles nationaux et étrangers à répondre aux exigences du code au niveau du projet, sept modèles nationaux et cinq modèles étrangers très représentatifs ont été sélectionnés pour cette évaluation.

Résultats de l'évaluation

liste globale

Liste des scénarios d'application

Examen et analyse de la cohérence humaine

Afin d'évaluer scientifiquement la cohérence des benchmarks du projet SuperCLUE avec les experts humains, nous sélectionnons les trois modèles présentant les meilleures, moyennes et moins bonnes performances globales à partir des résultats de l'évaluation, nous stratifions 33 paires question-réponse, nous procédons à une notation manuelle indépendante et à une notation question par question par les deux modèles de référence, et nous indiquons le pourcentage de cohérence des scores totaux des trois, les coefficients de corrélation du groupe, et nous examinons scientifiquement le professionnalisme des grands modèles. Le professionnalisme de la notation du "panel d'arbitres" a fait l'objet d'un examen scientifique.

Note : Une valeur ICC-3k de 0,75 ou plus est généralement considérée comme indiquant un accord inter-évaluateurs élevé.

Cas d'évaluation

Exemple 1 Développement d'un jeu (puzzle, difficile)

Prompt :Écrire un code pour mettre en œuvre un jeu de points à relier, des petits cubes multicolores et rapprochés m * n apparaissent aléatoirement (m, n spécifiés par l'utilisateur avant de commencer le jeu, sont des entiers supérieurs à 5), l'utilisateur clique sur deux cubes, si la couleur est la même et que les chemins connectés (uniquement autorisés dans les directions horizontale et verticale) n'ont pas plus de deux tours, alors les deux cubes sont éliminés ; si la règle d'élimination n'est pas respectée, alors les deux cubes sur lesquels l'utilisateur a cliqué sont éliminés. Cligner trois fois. Le joueur a trois chances de perturber la disposition des carrés existants. Si l'utilisateur réussit à éliminer deux carrés d'affilée en moins de 3 secondes, le message "Combo !" s'affiche à l'écran.

Big Model Ref 1 (Gemini-2.0-flash) :

用户指令中包含的需求 (基于独立分析)

1.创建游戏界面: 创建一个m*n的方块网格，m和n由用户指定（大于5的整数）。

2.方块颜色随机化: 随机生成多种颜色的方块，并确保每种颜色出现偶数次，以便可以两两消除。

3.消除规则: 当用户点击两个颜色相同的方块，且它们之间可以通过不多于两次转弯的路径连接时，消除这两个方块。

4.错误提示: 如果用户点击的两个方块不满足消除规则，则点击的方块闪烁三次。

5.打乱功能: 允许玩家打乱方块排列，总共有三次机会。

6.连击奖励: 如果用户在3秒内连续成功消除两次，则显示 "Combo!"。

对代码缺陷的总体点评

该代码实现了一个基本的连连看游戏，实现了方块的随机生成、消除规则、错误提示、打乱功能和连击奖励。但是，代码在用户体验和效率方面存在一些不足。例如，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。

各项标准的评分

-- 功能完整性：[[15]] 分

（实现了所有功能，包括随机生成方块、消除规则、打乱功能和连击奖励。所有核心功能均已实现，因此不扣分。）

-- 代码质量：[[5]] 分，其中：

效率：[[2]] 分

（代码在生成棋盘时，先创建了一个包含所有颜色的列表，然后进行随机打乱。这种做法在m和n较大时，可能会影响效率。此外，在判断两个方块是否可以消除时，使用了广度优先搜索算法。虽然该算法可以找到最短路径，但在大规模棋盘上，可能会比较耗时。因此，扣1分。）

可读性：[[2]] 分

（代码的命名基本清晰，但部分代码块的注释不足，例如，对于广度优先搜索算法的解释不够详细。代码的整体结构良好，但可以进一步模块化，例如，将游戏逻辑和界面绘制分离。因此，不扣分。）

安全性：[[1]] 分

（代码没有明显的安全漏洞，但是，对于用户输入的m和n，只做了简单的数值范围检查，没有考虑其他异常情况，例如，用户输入非整数。因此，扣1分。）

-- 用户体验：[[1]] 分

（游戏界面基本可以运行，但是，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。此外，游戏缺少音效和动画效果，用户体验有待提升。因此扣2分。）

综上所述，该代码实现的总体得分为 <<21>> 分。

Arbitre du grand modèle 2 (Qwen-Max) :

用户指令中包含的需求 (基于独立分析)

1. 游戏界面应随机出现多种颜色的、紧密排列的m*n个小方块，其中m和n由用户指定且均为大于5的整数。

2. 用户点击两个方块，如果颜色相同且相连接路径（仅允许水平和垂直两个方向）不多于两次转弯，则消除两方块。

3. 如果不满足消除规则，则点击的两个方块闪烁三下。

4. 玩家有三次机会可以打乱现有方块的排列。

5. 如果用户在3秒内连续成功消除两次，则在屏幕上显示"Combo!"。

对代码缺陷的总体点评

代码实现了基本的游戏逻辑，包括生成游戏板、检测方块是否相连以及处理玩家输入等。

代码结构较为清晰，但部分地方可以进一步优化以提高可读性和效率。


各项标准的评分

-- 功能完整性：[[15]] 分

该代码实现完全符合用户指令中的所有功能要求：

生成了m*n的小方块，且m和n由用户指定且均为大于5的整数。

用户点击两个方块，如果颜色相同且相连接路径不多于两次转弯，则消除两方块。

不满足消除规则时，点击的两个方块闪烁三下。

玩家有三次机会可以打乱现有方块的排列。

用户在3秒内连续成功消除两次时，在屏幕上显示"Combo!"。

-- 代码质量：[[5]] 分，其中：

效率：[[3]] 分

代码整体上对资源利用合理，没有明显的性能瓶颈。但由于未考虑极端情况下可能出现的问题，故保持满分。

可读性：[[1]] 分

虽然变量命名较清晰，但函数is_connected中的逻辑稍显复杂，不易理解。此外，主循环内的逻辑也可以通过更合理的模块化来改善。

安全性：[[1]] 分

代码缺乏对用户输入的有效验证，比如确保输入的是正整数。同时，对于某些潜在错误（如文件操作失败）也没有相应的处理机制。

-- 用户体验：[[2]] 分

游戏界面基本美观，交互元素工作正常。但是，由于方块闪烁次数符合要求，用户体验的一致性较好。

综上所述，该代码实现的总体得分为 <<22>> 分。

Note globale : [21.5/25]

# Exemple 2 Développement de jeux (Tireur, Difficile)

Invitation : Ecrire du code pour implémenter un simple jeu de combat aérien, le joueur utilise les touches fléchées gauche et droite pour manœuvrer l'avion en bas de l'interface afin d'éviter les obstacles volant vers le bas depuis le haut, et appuie sur la barre d'espacement pour tirer sur les avions ennemis depuis le haut, qui se déplaceront vers la gauche et la droite de façon aléatoire et tireront. La valeur initiale de la vie est de 3. Chaque fois que vous rencontrez un obstacle ou qu'un avion ennemi vous touche, votre valeur de vie est réduite de 1, et le jeu se termine lorsque votre valeur de vie atteint 0. Il y a 3 avions ennemis dans le premier niveau et 3 autres dans chaque niveau suivant. Il existe deux modes de tir : le mode A (par défaut) ne peut tirer que devant l'avion ennemi et le détruit en un seul coup ; le mode B tire dans plusieurs directions et nécessite deux coups pour détruire l'avion ennemi. Appuyez sur la touche "Q" pour passer du mode A au mode B.

[o3-mini-high code effect demo] :

Note globale : [22/25]

# Exemple 3 outils rapides (bureau quotidien, moyen)

Prompt :Écrire le code pour mettre en œuvre un outil de traitement de texte anglais, l'utilisateur saisit le texte, l'outil peut rapidement effectuer les statistiques sur le nombre de mots, le tri de la fréquence des mots, la conversion des majuscules, la suppression des espaces et des sauts de ligne, l'ajout de numéros de ligne et d'autres opérations. En outre, l'outil peut enregistrer plusieurs règles de remplacement définies par l'utilisateur et les exécuter de manière uniforme. Les utilisateurs peuvent enregistrer le texte dans leurs favoris et personnaliser le titre.

Note globale : [20.5/25]

Exemple 4 Application Web (vision Web, difficile)

Prompt :Écrire le code pour mettre en œuvre un site web de présentation de mode avec plusieurs images (téléchargées par l'utilisateur) qui tournent automatiquement, avec des vignettes situées au bas de la page. Les images sont commutées à l'aide d'un effet visuel de retournement de carte. Lorsqu'on survole une image, une loupe est utilisée pour afficher les détails. Le coin supérieur droit de la page comporte un bouton "éteindre les lumières", dont le fond est blanc par défaut ; si l'on clique sur "éteindre les lumières", le fond devient noir et le bouton devient "allumer les lumières". L'arrière-plan de la page a l'effet de pétales de fleurs qui tombent lentement. Dans le coin supérieur gauche se trouve une icône de démarrage/pause qui permet de contrôler le démarrage et la pause de la rotation des images ; dans le coin inférieur droit de chaque image en rotation se trouve une icône de cœur blanc qui devient rose lorsque vous cliquez dessus, et le nombre de fois que vous avez cliqué sur le cœur s'affiche sur le côté droit.

Note globale : [23/25]

Exemple 5 Application Web (Apprentissage éducatif, Difficulté)

Prompt :Écrire le code pour mettre en œuvre un site web de mémorisation du vocabulaire qui montre à l'utilisateur le mot et quatre options de paraphrase ; si l'utilisateur sélectionne l'option correcte, il passe au mot suivant ; si l'utilisateur sélectionne l'option incorrecte, il est invité à trouver l'option correcte avant de passer à l'option suivante. Chaque groupe comprend cinq mots, soit un total de trois groupes. À la fin de chaque groupe, l'utilisateur peut choisir de terminer l'étude ou d'apprendre une autre série de mots. Une fois l'étude terminée, le taux de réussite global de cette étude s'affiche. Les utilisateurs peuvent cliquer sur "Passer en mode révision" en haut de l'interface pour répondre à nouveau aux questions auxquelles ils ont répondu de manière incorrecte. L'ordre des questions est aléatoire, c'est-à-dire que l'ordre des questions est généralement différent à chaque fois que vous accédez au site.

[Démonstration de l'effet de code Qwen-Max] :

Note globale : [19/25]

Analyse de l'évaluation et conclusion

1. o3-mini-haut avec Claude-3.7-Sonnet-Raisonnement en tête

Dans cette évaluation, le modèle o3-mini-high d'OpenAI a obtenu un score composite de 82,08, tandis que le modèle d'inférence Claude-3.7-Sonnet-Reasoning d'Anthropic, récemment publié, a obtenu un score composite de 81,63, et les deux ont mené la liste main dans la main.

2. DeepSeek-R1 est en tête des modèles nationaux et fait partie du peloton de tête de l'industrie.

D'après les résultats de l'évaluation, DeepSeek-R1 a un très faible écart de score avec les modèles de pointe de l'industrie tels que o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro, etc., et sa performance est particulièrement remarquable dans les scénarios d'application "développement de jeux" et "application de réseau". Ses performances sont particulièrement remarquables dans les scénarios d'application "développement de jeux" et "application réseau". Elles dépassent ou atteignent le niveau de Claude-3.5-Sonnet, Gemini-2.0-pro et d'autres modèles.

3) Chacun a ses propres atouts : R1 est spécialisé dans le développement de jeux, o3/Step R est spécialisé dans l'édition multimédia et plusieurs sont spécialisés dans les applications web.

Les 12 modèles qui ont participé à l'évaluation montrent la différence de capacité dans les différents scénarios d'application. Parmi eux, DeepSeek-R1 est remarquable dans le domaine du "développement de jeux", Claude-3.5-Sonnet, Beanbag 1.5pro, Smart Spectrum GLM-Zero-preview et Tongyi Qianqian Max sont plus habiles dans la conception d'"applications web", o3-mini-high et Step Star Step R-mini sont meilleurs dans la conception d'"applications web", et o3-mini-high et Step Star Step R-mini sont meilleurs dans la conception d'"applications web". Claude-3.5-Sonnet, Beanbag 1.5pro, GLM-Zero-preview et Max sont plus spécialisés dans la conception d'"applications web", tandis que o3-mini-high et Step R-mini ont un avantage unique dans le développement d'outils d'"édition multimédia".

4. il existe des différences significatives dans les choix méthodologiques et les styles d'interface entre les différents modèles.

La comparaison des réponses des modèles révèle que, face aux mêmes exigences des utilisateurs, les différents modèles choisissent des langages de programmation très différents, appellent des bibliothèques/modules et accordent une grande attention à l'esthétique de l'interface, ce qui, dans une certaine mesure, reflète les différences dans les capacités, les préférences et les concepts des modèles. Dans l'ensemble, les modèles d'outre-mer sont plus performants dans la conception de l'interface utilisateur.

Des exemples pertinents sont énumérés ci-dessous :

Première question :

Écrivez un code pour mettre en œuvre un site web simple de commande de nourriture en ligne, permettant d'ajouter des plats au panier, de modifier le nombre de plats à l'aide des touches "+" et "-", d'afficher en temps réel le prix total des plats dans le panier et de cliquer pour passer une commande. Une fois la commande passée, le panier est vidé et il est demandé au client s'il souhaite emballer la nourriture. Pour chaque tranche de 100 $ du montant total, une réduction de 10 $ devrait être accordée.

Deuxième question :

Écrire le code pour mettre en œuvre un jeu de tir au panier, le mouvement de la souris pour contrôler la direction du ballon, appuyer sur la souris pour accumuler de la puissance, le ballon dans le panier pour marquer des points, les paniers consécutifs ont des points supplémentaires, ne pas entrer dans le panier trois fois, puis la fin du jeu. Lorsque vous choisissez la direction et que vous accumulez de la puissance, vous devez marquer la trajectoire de vol prévue à l'aide d'une ligne pointillée ; après avoir lancé le ballon de basket, vous devez montrer clairement sa trajectoire de vol. Avant de tirer, vous pouvez utiliser les touches fléchées gauche et droite pour déplacer la position initiale du ballon de basket, les tirs à courte distance rapportent 2 points, au-delà d'une certaine distance, les tirs rapportent 3 points. Il est possible de toucher le rebord et de rebondir dans le ballon.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言

Siliconcloud lance CosyVoice2 accéléré : synthèse vocale en temps réel de 150 ms, prise en charge des langues et dialectes mixtes

Nouvelles de l'IA

Il y a 8 mois

014.9K

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力

Il est démontré que:RL surpasse SFT dans l'apprentissage de connaissances généralisables, en particulier dans les tâches multimodales, montrant des capacités de raisonnement et de reconnaissance visuelle plus fortes.

Nouvelles de l'IA

Il y a 7 mois

08.2K

Windsurf Next est sorti, découvrez en avant-première les dernières fonctionnalités de Windsurf !

Nouvelles de l'IA

Il y a 7 mois

010.4K

Modèle de "contrôle de l'objectif" de la vidéo Conch : l'ère du "réalisateur" de la création vidéo par l'IA est arrivée ?

Nouvelles de l'IA

Il y a 6 mois

08.9K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Les résultats de la génération de code au niveau du projet sont disponibles ! o3/Claude 3.7 est en tête, R1 est dans le peloton de tête !

Résumé des mesures du code au niveau du projet

Système d'évaluation des projets SuperCLUE

Méthodologie

Critères d'évaluation

Modèles participants