Am 26. Februar 2025 veröffentlichte SuperCLUE die erste Liste von Benchmarks für die Codegenerierung auf Projektebene (SuperCLUE-Project).
Für das Bewertungsprogramm siehe: Project-level Code Generation Evaluation Benchmark Release. Auf der Grundlage der Zusammenarbeit mit dem "Richtergremium" für große Modelle wird in dieser Bewertung die Fähigkeit von 12 großen Modellen aus dem In- und Ausland zur Codegenerierung auf Projektebene bewertet, die 5 Kategorien von Anwendungsszenarien abdecken, darunter Spieleentwicklung, Werkzeuge und Verwaltungssysteme. Im Folgenden finden Sie den ausführlichen Bewertungsbericht.
Zusammenfassung der Code-Messungen auf Projektebene
Zusammenfassung 1: o3-mini-high und Claude-3.7-Sonnet-Reasoning liegen in Führung
In dieser Bewertung erreichte das von OpenAI herausgegebene o3-mini-high eine Gesamtpunktzahl von 82,08 und das von Anthropic neu herausgegebene Argumentationsmodell Claude-3.7-Sonnet-Reasoning eine Gesamtpunktzahl von 81,63, wobei die beiden Hand in Hand die Liste anführten.
Zusammenfassung 2: DeepSeek-R1 führt inländische Modelle an und zählt zu den Spitzenreitern der Branche
Aus den Bewertungsergebnissen geht hervor, dass der Punkteabstand zwischen DeepSeek-R1 und den Spitzenmodellen der Branche wie o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning und Gemini-2.0-pro extrem gering ist und in einigen Anwendungsszenarien sogar eine gewisse Führungsposition erreicht.
Zusammenfassung 3: Jede hat ihre eigenen Stärken. r1 ist auf die Entwicklung von Spielen spezialisiert, o3/Step Step R auf die Bearbeitung von Multimedia-Inhalten, und mehrere sind auf Webanwendungen spezialisiert.
Die 12 Modelle, die an der Bewertung teilgenommen haben, zeigen die unterschiedlichen Fähigkeiten in verschiedenen Anwendungsszenarien, z. B. ist DeepSeek-R1 herausragend im Bereich der "Spieleentwicklung", Claude-3.5-Sonnet, Beanbag 1.5pro und Tongyiqianqian Max sind mehr auf die Entwicklung von "Webanwendungen" spezialisiert usw. Claude-3.5-Sonnet, Beanbag 1.5pro und Tongyi Qianqian Max sind eher auf die Entwicklung von "Webanwendungen" spezialisiert, während StepStar Step R-mini einen einzigartigen Vorteil bei der Entwicklung von "Multimedia-Bearbeitungswerkzeugen" usw. hat.
Zusammenfassung 4: Die verschiedenen Modelle unterscheiden sich erheblich in der Wahl der Methoden und der Gestaltung der Schnittstellen
Der Vergleich der Modellantworten zeigt, dass verschiedene Modelle bei gleichen Benutzeranforderungen sehr unterschiedliche Programmiersprachen wählen, Bibliotheken/Module aufrufen und der Ästhetik der Schnittstelle große Aufmerksamkeit schenken, was bis zu einem gewissen Grad die Unterschiede in den Fähigkeiten, Präferenzen und Konzepten der Modelle widerspiegelt.
Überblick über die Liste
SuperCLUE-Projektbewertungssystem
SuperCLUE-Project ist ein chinesischer Code-Evaluierungs-Benchmark, der entwickelt wurde, um die Fähigkeit großer Modelle zu untersuchen, die Anforderungen der Benutzer auf Projektebene in Code-Implementierungen umzusetzen.
Das SuperCLUE-Projekt konzentriert sich auf die tatsächlichen Bedürfnisse der Benutzergruppe der Nicht-Programmierer, deckt 5 Dimensionen der ersten Ebene und 18 Dimensionen der zweiten Ebene ab und erstellt die Fragensätze in natürlicher chinesischer Sprache. In Anbetracht der Charakteristika der Nicht-Programmierer-Gemeinschaft betonen wir beim Themenentwurf nur die funktionale Ebene der Anforderungsbeschreibung und setzen die Effizienz, Sicherheit, Lesbarkeit und andere Indikatoren als unabhängige Fähigkeiten der großen Modellakteure, die in der Bewertungssitzung bewertet werden sollen.
Darüber hinaus haben die Benchmarks drei Schwierigkeitsgrade (leicht - mittel - komplex), die für denselben Themenkomplex ganzheitlich skaliert sind, um einen tieferen Einblick in die Code-Implementierungsfähigkeiten der Modelle auf Projektebene zu ermöglichen.
Methodik
In Anlehnung an den feinkörnigen SuperCLUE-Bewertungsansatz wird die Bewertung nach folgendem Verfahren durchgeführt:
1) Aufbau der Messgeräte
1. in Anbetracht der Dynamik des großen Bereichs der modellgestützten Low-Code/Null-Code-Entwicklung die Anforderungen an Code-Projekte von Nicht-Programmierern sammeln und zusammenstellen
2. einfache Code-Bewertungssätze auf Projektebene schreiben
3. das Format und die Anzahl der Wörter kontrollieren, um die Bewertung auf mittlere/komplexe Schwierigkeitsgrade zu erweitern
4. die Prüfung und manuelle Kalibrierung
2) Scoring-Verfahren
1. die Vorbereitung der Bewertungsregeln --->
2. kleine Tests zur manuellen Überprüfung der Konsistenz der Bewertungen des Schiedsrichtermodells mit denen der menschlichen Experten --->
3. iterative Abstimmung der Bewertungsregeln auf der Grundlage von Konsistenzrückmeldungen --->
4. den vollständigen Satz der zu prüfenden Modellantworten und Bewertungsregeln an die beiden Schiedsrichtermodelle weitergeben, um jeweils die vollständigen Bewertungen zu erhalten --->
5. als Endergebnis den Mittelwert der Punktzahlen der beiden Bewertungsmodelle in jeder Dimension berechnen
3) Analyse der menschlichen Kohärenz
Eine geschichtete Stichprobe der Messreihe wurde durchgeführt, um die Konsistenz der Bewertung des Schiedsrichtermodells mit der des menschlichen Experten zu prüfen, indem der Korrelationskoeffizient innerhalb der Gruppe berechnet und diese Leistung angegeben wurde.
Im Vergleich zu früheren Benchmarks werden im SuperCLUE-Projekt zum ersten Mal sowohl inländische als auch ausländische Modelle (Gemini-2.0-flash und Qwen-Max) als Schiedsrichter bei der Durchführung der Bewertung eingesetzt, was die Probleme der Verzerrung und Bevorzugung des großen Modells durch die Zusammenarbeit des "Schiedsrichterteams" weiter verringert. (Durch die Zusammenarbeit des "Gutachtergremiums" werden die Probleme der Voreingenommenheit und Bevorzugung des großen Modells weiter verringert.
Um die Zuverlässigkeit des Schiedsrichtermodells zu überprüfen, führt SuperCLUE-Project zum ersten Mal den Intra-Klassen-Korrelationskoeffizienten (ICC) ein und berechnet die bidirektionalen gemischten Effekte der Bewertungen von menschlichen Experten, Qwen-Max und Gemini-2.0-flash ( ICC(3,k))-Indizes wurde eine hohe Übereinstimmung des Schiedsrichtermodells mit den menschlichen Bewertungen festgestellt. Verglichen mit der bisherigen prozentualen Zuverlässigkeit überwindet die Methode effektiv die schwankenden Auswirkungen von Zufallsfehlern.
(*Anmerkung: Der gruppeninterne Korrelationskoeffizient (ICC) ist einer der Reliabilitätskoeffizienten zur Messung und Bewertung der Inter-Beobachter-Reliabilität und der Test-Retest-Reliabilität und wurde erstmals 1966 von Bartko zur Messung und Bewertung des Ausmaßes der Zuverlässigkeit verwendet. Variabilität dividiert durch die Gesamtvariabilität. In diesem Experiment wurde der Index der gemischten Zwei-Wege-Effekte als Konsistenzindex gewählt, da wir nur die Konsistenz zwischen dem ausgewählten Schiedsrichtermodell und den Bewertungen des menschlichen Experten betrachten und nicht auf andere Bewerter ausweiten müssen).
Bewertungskriterien
- Funktionale Integrität (60%): stellt sicher, dass der Code alle in den Benutzeranweisungen beschriebenen Funktionen vollständig implementiert.
- Codequalität (28%): Bewertet die Leistung von Code in Bezug auf Effizienz, Lesbarkeit und Sicherheit. Umfasst insbesondere:
a. Effizienz (12%): ob der Code in Bezug auf Ressourcennutzung, DOM-Manipulation, Umgang mit Datenbanken/großen Datensätzen, Berechnungen oder API-Aufrufe ausreichend optimiert ist.
b. Lesbarkeit (8%): Ob der Code (1) die Verwendung klarer Bezeichnungen und konsistenter Formatierung, (2) die logische Aufteilung der Codebasis in Module und (3) die Beibehaltung einer klaren Projektstruktur implementiert.
c. Sicherheit (8%): Ob der Code (1) keine offensichtlichen Sicherheitslücken aufweist; und (2) grundlegende Ausnahmen effektiv behandeln kann.
- User Experience (12%): Bewertet die Qualität des Designs und der Ästhetik der Benutzeroberfläche, einschließlich der ordnungsgemäßen Funktion interaktiver Elemente (z. B. Schaltflächen, Formulare) und der grundlegenden Ästhetik der gesamten Oberfläche.
Im Vergleich zu den bisherigen Bewertungskriterien hat das SuperCLUE-Projekt den relativ ausgewogenen Bewertungsmechanismus geändert und die Gewichtung des Aspekts der funktionalen Umsetzung, der auch für den normalen Benutzer am wichtigsten ist, deutlich erhöht.
Darüber hinaus ist in den Bewertungskriterien des SuperCLUE-Projekts der Bewertungsmodus des Punktabzugssystems festgelegt, d. h. auf der Grundlage der standardmäßig vergebenen Gesamtpunktzahl wird auf der Grundlage des Vergleichs zwischen den Fragen und den entsprechenden Codeimplementierungen der Teil der Punktzahl abgezogen, der den Anforderungen der Fragen nicht entspricht. Bei dieser Art von individueller Bewertungsmethode für jede einzelne Frage gleicht das Punktabzugssystem bis zu einem gewissen Grad die Unzulänglichkeiten des großen Modellreferenten bei der Prüfung der relativen Qualität von Mehrfachantworten aus und mildert die Nachteile der großen ModellbewertungStochastik.
Teilnehmende Modelle
Um den aktuellen Stand der Fähigkeit inländischer und ausländischer Großmodelle zur Lösung von Code-Anforderungen auf Projektebene umfassend zu messen, wurden sieben inländische Modelle und fünf ausländische Modelle mit hoher Repräsentativität für diese Bewertung ausgewählt.
Ergebnisse der Bewertung
Gesamtliste
Liste der Anwendungsszenarien 
Überprüfung und Analyse der menschlichen Konsistenz
Um die Konsistenz der SuperCLUE-Project-Benchmarks mit den menschlichen Experten wissenschaftlich zu bewerten, wählen wir aus den Bewertungsergebnissen die drei Modelle mit der besten, der durchschnittlichen und der schlechtesten Gesamtleistung aus, schichten 33 Frage-Antwort-Paare, führen eine manuelle unabhängige Bewertung und eine Frage-für-Frage-Bewertung durch die beiden Schiedsrichter-Modelle durch und berichten über die prozentuale Konsistenz der Gesamtpunktzahl der drei, die Korrelationskoeffizienten der Gruppe und untersuchen wissenschaftlich die Professionalität der großen Modelle. Die Professionalität der Bewertung durch das "Schiedsrichter-Panel" wurde wissenschaftlich untersucht.
Hinweis: Ein ICC-3k-Wert von 0,75 oder höher gilt im Allgemeinen als Hinweis auf eine hohe Übereinstimmung zwischen den Beurteilern.
Bewertung Fälle
Beispiel 1 Spielentwicklung (Puzzle, schwierig)
Aufforderung:Schreiben Sie einen Code, um ein Connect-the-dots-Spiel zu implementieren, bei dem zufällig mehrfarbige, eng beieinander liegende m * n kleine Würfel erscheinen (m, n werden vom Benutzer vor Beginn des Spiels angegeben und sind ganze Zahlen größer als 5), der Benutzer klickt auf zwei Würfel, wenn die Farbe die gleiche ist und die verbundenen Pfade (nur in horizontaler und vertikaler Richtung) nicht mehr als zwei Umdrehungen haben, dann werden die beiden Würfel eliminiert; wenn die Eliminierungsregel nicht erfüllt ist, dann werden die beiden Würfel, auf die geklickt wurde Dreimal blinken. Der Spieler hat drei Chancen, die Anordnung der vorhandenen Quadrate zu stören. Gelingt es dem Spieler, innerhalb von 3 Sekunden zwei Quadrate hintereinander zu eliminieren, erscheint auf dem Bildschirm "Combo!
Großes Modell Ref 1 (Gemini-2.0-flash):
Anforderungen in der Gebrauchsanweisung (basierend auf unabhängigen Analysen) 1. die Spieloberfläche erstellenErstellen eines Gitters aus m*n Quadraten, wobei m und n vom Benutzer angegeben werden (ganze Zahlen größer als 5). 2. die Randomisierung der Würfelfarben: Erzeugen Sie nach dem Zufallsprinzip mehrfarbige Quadrate und achten Sie darauf, dass jede Farbe gerade oft vorkommt, so dass sie paarweise eliminiert werden können. 3. die EliminierungsregelnEliminieren Sie zwei gleichfarbige Quadrate, wenn der Benutzer auf sie klickt und sie durch einen Pfad mit nicht mehr als zwei Umdrehungen verbunden werden können. 4. fehlerhafte TippsWenn die beiden vom Benutzer angeklickten Quadrate die Ausschlussregel nicht erfüllen, blinkt das angeklickte Quadrat dreimal. 5. die UnterbrechungsfunktionErlaubt dem Spieler, die Anordnung der Quadrate zu stören, und bietet insgesamt drei Chancen. 6. streiken BelohnungenWenn es dem Benutzer gelingt, innerhalb von 3 Sekunden zwei Mal hintereinander zu eliminieren, wird "Combo!" angezeigt. Gesamtüberprüfung von Code-Fehlern Der Code implementiert ein grundlegendes Combo-Spiel, das die zufällige Generierung von Feldern, Eliminierungsregeln, Fehlerwarnungen, eine Umkippfunktion und einen Combo-Bonus beinhaltet. Der Code weist jedoch einige Mängel in Bezug auf die Benutzerfreundlichkeit und Effizienz auf. Beispielsweise ist der Blinkeffekt der Quadrate nicht flüssig genug, und die Aktualisierung der Benutzeroberfläche nach der Eliminierung der Quadrate erfolgt nicht zeitnah genug. Punktzahlen für jedes Kriterium -- Funktionale Integrität: [[15]] Punkte (Alle Funktionen sind implementiert, einschließlich zufällig generierter Felder, Eliminierungsregeln, Unterbrechungsfunktionen und Kombinationsboni. Alle Kernfunktionen sind implementiert, so dass keine Punkte abgezogen werden). -- Code-Qualität: [[5]] Punkte, wobei: Effizienz: [[2]] Punkte (Der Code erzeugt das Brett, indem er eine Liste aller Farben erstellt und diese dann zufällig unterbricht. Dieser Ansatz kann die Effizienz beeinträchtigen, wenn m und n groß sind. Außerdem wird bei der Entscheidung, ob zwei Quadrate eliminiert werden können, ein Breitensuchalgorithmus verwendet. Dieser Algorithmus kann zwar den kürzesten Weg finden, kann aber bei einem großen Spielbrett sehr zeitaufwändig sein. Daher wird 1 Punkt abgezogen.) Lesbarkeit: [[2]] Punkte (Die Benennung des Codes ist im Allgemeinen klar, aber einige der Codeblöcke sind unzureichend kommentiert, z. B. ist die Erklärung des Breadth-First-Suchalgorithmus nicht detailliert genug. Die Gesamtstruktur des Codes ist gut, könnte aber weiter modularisiert werden, z. B. durch Trennung der Spiellogik von der Zeichnung der Benutzeroberfläche. Daher werden keine Punkte abgezogen.) Sicherheit: [[1]] Punkte (Es gibt keine offensichtlichen Sicherheitslücken im Code, allerdings wird für die Benutzereingabe von m und n nur eine einfache Wertebereichsprüfung durchgeführt, ohne andere Ausnahmen zu berücksichtigen, z.B. wenn der Benutzer nicht-ganzzahlige Zahlen eingibt. Daher wird 1 Punkt abgezogen.) -- Benutzererfahrung: [[1]] Punkte (Die Spieloberfläche funktioniert grundsätzlich, allerdings ist der Blinkeffekt der Blöcke nicht flüssig genug und die Aktualisierung der Oberfläche nach dem Entfernen von Blöcken erfolgt nicht zeitnah genug. Außerdem fehlt es dem Spiel an Soundeffekten und Animationen, und die Benutzerfreundlichkeit muss verbessert werden. Daher werden 2 Punkte abgezogen). Zusammenfassend beträgt die Gesamtpunktzahl für diese Code-Implementierung <> Punkte.
Großer Modell-Schiedsrichter 2 (Qwen-Max):
Anforderungen in der Gebrauchsanweisung (basierend auf unabhängigen Analysen) Die Spieloberfläche soll m*n Würfel mehrerer Farben in einer engen Anordnung zufällig anzeigen, wobei m und n vom Benutzer angegeben werden und ganze Zahlen größer als 5 sind. Klickt der Benutzer auf zwei Würfel, wenn die Farben gleich sind und die verbundenen Wege (nur horizontale und vertikale Richtungen sind erlaubt) nicht mehr als zwei Umdrehungen haben, dann werden beide Würfel eliminiert. (3) Ist die Eliminierungsregel nicht erfüllt, blinken die beiden angeklickten Quadrate dreimal. (4) Der Spieler hat dreimal die Möglichkeit, die Anordnung der vorhandenen Quadrate zu stören. (5) Gelingt es dem Spieler, innerhalb von 3 Sekunden zwei Quadrate hintereinander zu eliminieren, erscheint auf dem Bildschirm "Combo! Allgemeine Kommentare zu Code-Fehlern Der Code implementiert die grundlegende Spiellogik, einschließlich der Generierung des Spielbretts, der Erkennung, ob die Blöcke verbunden sind, und der Verarbeitung von Spielereingaben. Die Codestruktur ist relativ klar, aber einige Teile könnten weiter optimiert werden, um die Lesbarkeit und Effizienz zu verbessern. Wertung für jedes Kriterium -- Funktionale Integrität: [[15]] Punkte Die Code-Implementierung erfüllt alle funktionalen Anforderungen in den Benutzeranweisungen vollständig: Es werden kleine Würfel von m*n erzeugt, und m und n werden vom Benutzer angegeben und sind beide ganze Zahlen größer als 5. Der Benutzer klickt auf zwei Quadrate, und wenn sie die gleiche Farbe haben und die verbundenen Pfade nicht mehr als zwei Windungen aufweisen, werden beide Quadrate eliminiert. Wenn die Eliminierungsregel nicht erfüllt ist, blinken die beiden angeklickten Quadrate dreimal. Der Spieler hat dreimal die Möglichkeit, die Anordnung der vorhandenen Quadrate zu stören. Wenn es dem Spieler gelingt, innerhalb von 3 Sekunden zwei Quadrate hintereinander zu eliminieren, wird auf dem Bildschirm "Combo! -- Code Qualität: [[5]] Punkte, wobei: Effizienz: [[3]] Punkte Der Code nutzt die Ressourcen insgesamt angemessen und es gibt keine offensichtlichen Leistungsengpässe. Die volle Punktzahl wird jedoch beibehalten, da mögliche Probleme in Extremfällen nicht berücksichtigt werden. Lesbarkeit: [[1]] Punkte Obwohl die Benennung der Variablen klarer ist, ist die Logik in der Funktion is_connected etwas komplexer und nicht einfach zu verstehen. Auch die Logik innerhalb der Hauptschleife könnte durch eine sinnvollere Modularisierung verbessert werden. Sicherheit: [[1]] Punkte Dem Code fehlt eine wirksame Validierung der Benutzereingabe, z. B. die Sicherstellung, dass die Eingabe eine positive ganze Zahl ist. Außerdem gibt es keinen Mechanismus zur Behandlung bestimmter potenzieller Fehler (z. B. fehlgeschlagene Dateioperationen). -- Benutzerfreundlichkeit: [[2]] Punkte Die Spieloberfläche ist grundsätzlich ästhetisch ansprechend und die interaktiven Elemente funktionieren gut. Die Konsistenz der Benutzererfahrung ist jedoch besser, da die Anzahl der blinkenden Quadrate den Anforderungen entspricht. Zusammenfassend beträgt die Gesamtbewertung für diese Code-Implementierung <> Punkte.
Gesamtbewertung: [21.5/25]
# Beispiel 2 Spielentwicklung (Shooter, Schwierig)
Aufforderung: Schreiben Sie Code, um ein einfaches Luftkampfspiel zu implementieren. Der Spieler verwendet die linke und rechte Pfeiltaste, um das Flugzeug am unteren Rand der Oberfläche zu manövrieren, um Hindernissen auszuweichen, die von oben herabfliegen, und drückt die Leertaste, um feindliche Flugzeuge von oben abzuschießen, die sich zufällig nach links und rechts bewegen und feuern. Der anfängliche Lebenswert beträgt 3. Jedes Mal, wenn du auf ein Hindernis triffst oder von einem feindlichen Flugzeug getroffen wirst, verringert sich dein Lebenswert um 1, und das Spiel endet, wenn dein Lebenswert 0 erreicht. Es gibt 3 feindliche Flugzeuge im ersten Level und 3 weitere in jedem folgenden Level. Es gibt zwei Feuermodi für das Flugzeug des Spielers: Modus A (Standard) kann nur vor das gegnerische Flugzeug feuern und zerstört es mit einem Treffer; Modus B feuert in mehrere Richtungen und erfordert zwei Treffer, um das gegnerische Flugzeug zu zerstören. Drücken Sie die Taste "Q", um zwischen Modus A und B zu wechseln.
[o3-mini-high code effect demo]:
Gesamtbewertung: [22/25]
# Beispiel 3 Quick Tools (Daily Office, Medium)
Aufforderung:Schreiben Sie Code, um ein englisches Textverarbeitungswerkzeug zu implementieren. Der Benutzer gibt den Text ein, das Werkzeug kann schnell die Anzahl der Wörter statistisch erfassen, die Worthäufigkeit sortieren, die Groß- und Kleinschreibung umwandeln, Leerzeichen und Zeilenumbrüche entfernen, Zeilennummern hinzufügen und andere Operationen durchführen. Darüber hinaus kann das Tool mehrere benutzerdefinierte Ersetzungsregeln speichern und diese einheitlich ausführen. Die Benutzer können den Text in ihren Favoriten speichern und den Titel anpassen.
Gesamtbewertung: [20.5/25]
Beispiel 4 Webanwendung (Web Vision, schwierig)
Aufforderung:Schreiben Sie Code, um eine Website zur Präsentation von Mode mit mehreren (vom Benutzer hochgeladenen) Bildern zu implementieren, die sich automatisch drehen, wobei sich die Miniaturbilder am unteren Rand der Seite befinden. Die Bilder werden mit Hilfe eines visuellen Card-Flip-Effekts umgeschaltet. Wenn man mit dem Mauszeiger über ein Bild fährt, wird eine Lupe verwendet, um die Details anzuzeigen. In der oberen rechten Ecke der Seite befindet sich eine Schaltfläche "Licht ausschalten". Standardmäßig ist der Hintergrund weiß, wenn Sie auf "Licht ausschalten" klicken, wird der Hintergrund schwarz und die Schaltfläche wird zu "Licht einschalten". Der Hintergrund der Seite wirkt wie langsam fallende Blütenblätter. In der oberen linken Ecke befindet sich eine Schaltfläche mit dem Start-/Pause-Symbol, um den Start und die Pause der Bildrotation zu steuern; in der unteren rechten Ecke jedes rotierenden Bildes befindet sich ein weißes Herz-Symbol, das sich rosa färbt, wenn Sie darauf klicken, und auf der rechten Seite wird angezeigt, wie oft Sie das Herz angeklickt haben.
Gesamtbewertung: [23/25]
Beispiel 5 Webanwendung (Pädagogisches Lernen, Schwierigkeitsgrad)
Aufforderung:Schreiben Sie einen Code, um eine Website zum Auswendiglernen von Vokabeln zu implementieren, die dem Benutzer das Wort und vier Umschreibungsoptionen anzeigt; wenn der Benutzer die richtige Option auswählt, springt er/sie zum nächsten Wort; wenn der Benutzer die falsche Option auswählt, wird er/sie vor dem Springen nach der richtigen Option gefragt. Jede Gruppe besteht aus fünf Wörtern, also insgesamt drei Gruppen. Nach dem Ende jeder Gruppe kann der Benutzer wählen, ob er die Studie beenden oder eine andere Gruppe von Wörtern lernen möchte. Nach Beendigung der Studie wird die Gesamtrichtigkeitsrate dieser Studie angezeigt. Der Benutzer kann oben auf der Benutzeroberfläche auf "Zum Überprüfungsmodus wechseln" klicken, um die Fragen, die er falsch beantwortet hat, erneut zu beantworten. Die Reihenfolge der Fragen ist zufällig, d. h. die Reihenfolge der Fragen ist in der Regel jedes Mal anders, wenn Sie die Website aufrufen.
[Qwen-Max-Code-Effekt-Demo]:
Gesamtbewertung: [19/25]
Evaluierungsanalyse und Schlussfolgerung
1. o3-mini-high mit Claude-3.7-Sonnet-Reasoning in Führung
In dieser Bewertung erreichte das von OpenAI veröffentlichte o3-mini-high eine Gesamtpunktzahl von 82,08, während das neu veröffentlichte Inferenzmodell Claude-3.7-Sonnet-Reasoning von Anthropic eine Gesamtpunktzahl von 81,63 erreichte, und die beiden führten die Liste Hand in Hand an.
2. der DeepSeek-R1 führt die inländischen Modelle an und gehört zur Spitzengruppe der Branche
Aus den Bewertungsergebnissen geht hervor, dass DeepSeek-R1 einen sehr geringen Punkteabstand zu den Spitzenmodellen der Branche wie o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro usw. aufweist und seine Leistung insbesondere in den Anwendungsszenarien "Spieleentwicklung" und "Netzwerkanwendung" hervorragend ist. Die Leistung ist besonders in den Anwendungsszenarien "Spieleentwicklung" und "Netzanwendung" herausragend und übertrifft oder erreicht das Niveau von Claude-3.5-Sonnet, Gemini-2.0-pro und anderen Modellen.
3 Jede hat ihre eigenen Stärken: R1 ist auf die Entwicklung von Spielen spezialisiert, o3/Step R auf die Bearbeitung von Multimediainhalten, und mehrere sind auf Webanwendungen spezialisiert.
Die 12 Modelle, die an der Bewertung teilgenommen haben, zeigen die unterschiedlichen Fähigkeiten in verschiedenen Anwendungsszenarien. Unter ihnen ist DeepSeek-R1 herausragend im Bereich "Spieleentwicklung", Claude-3.5-Sonnet, Beanbag 1.5pro, Smart Spectrum GLM-Zero-preview und Tongyi Qianqian Max sind geschickter bei der Gestaltung von "Webanwendungen", o3-mini-high und Step Star Step R-mini sind besser bei der Gestaltung von "Webanwendungen". Claude-3.5-Sonnet, Beanbag 1.5pro, GLM-Zero-preview und Max sind eher auf das Design von "Webanwendungen" spezialisiert, während o3-mini-high und Step R-mini einen einzigartigen Vorteil bei der Entwicklung von "Multimedia-Bearbeitungswerkzeugen" haben.
4. die verschiedenen Modelle unterscheiden sich erheblich in der Wahl der Methoden und der Gestaltung der Schnittstellen.
Der Vergleich der Modellantworten zeigt, dass die verschiedenen Modelle bei gleichen Benutzeranforderungen sehr unterschiedliche Programmiersprachen wählen, Bibliotheken/Module aufrufen und der Ästhetik der Benutzeroberfläche große Aufmerksamkeit schenken, was bis zu einem gewissen Grad die Unterschiede in den Fähigkeiten, Präferenzen und Konzepten der Modelle widerspiegelt. Insgesamt schneiden die Modelle aus Übersee bei der Gestaltung der Benutzeroberfläche besser ab.
Entsprechende Beispiele sind im Folgenden aufgeführt:
Frage eins:
Schreiben Sie Code, um eine einfache Online-Bestellung von Lebensmitteln Website, Unterstützung für das Hinzufügen von Gerichten in den Warenkorb, durch die "+" und "-", um die Anzahl der Gerichte zu ändern, Echtzeit-Anzeige des Gesamtpreises der Gerichte in den Warenkorb, und die Fähigkeit zu klicken, um eine Bestellung aufzugeben. Nach der Bestellung wird der Warenkorb geleert und der Kunde wird gefragt, ob er das Essen einpacken möchte. Für jede 100 $ des Gesamtbetrags sollte es einen Rabatt von 10 $ geben.
Frage zwei:
Schreiben Sie Code, um ein Basketball-Shooting-Spiel zu implementieren, Mausbewegung, um die Richtung des Basketballs zu steuern, drücken Sie die Maus, um Energie zu speichern, den Basketball in den Korb, um Punkte zu erzielen, aufeinanderfolgende Körbe haben zusätzliche Punkte, nicht in den Korb drei Mal, dann das Ende des Spiels. Bei der Wahl der Richtung und beim Sammeln von Energie müssen Sie die beabsichtigte Flugbahn mit einer gepunkteten Linie markieren; nachdem Sie den Basketball geworfen haben, müssen Sie seine Flugbahn deutlich zeigen. Vor dem Schießen können Sie die linke und rechte Pfeiltaste verwenden, um die Ausgangsposition des Basketballs zu verschieben. Für Schüsse aus kurzer Entfernung gibt es 2 Punkte, für Schüsse über eine bestimmte Entfernung 3 Punkte. Es besteht die Möglichkeit, den Rand zu treffen und in den Ball abzuprallen.