AI Personal Learning
und praktische Anleitung

2024 Chinesischer Benchmarking-Bericht für große Modelle (SuperCLUE)

Kontexte

Seit 2023 haben KI-Großmodelle die größte KI-Welle aller Zeiten auf globaler Ebene ausgelöst. Mit dem Eintritt in das Jahr 2024 nimmt die Wettbewerbsdynamik des globalen Big Model zu undMit dem Erscheinen der Sora, des GPT-4o und des o1 hatten die einheimischen Großmodelle 2024 eine regelrechte Großmodelljagd.

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1


Der chinesische Benchmark für die Bewertung großer Modelle, SuperCLUE, hat den Entwicklungstrend und die umfassenden Auswirkungen großer Modelle im In- und Ausland kontinuierlich in Echtzeit verfolgt und wurde nun offiziell veröffentlicht.Benchmarking großer chinesischer Modelle 2024 Jahresbericht.

Der vollständige Bericht umfasst 89 Seiten, in diesem Artikel werden nur die wichtigsten Inhalte des Berichts wiedergegeben, der vollständige Bericht steht online zur Verfügung (zum Herunterladen):

www.cluebenchmarks.com/superclue_2024

SuperCLUE-Rangliste Adresse:

www.superclueai.com

 

Schlüsselelemente des Berichts

Schlüsselkomponente 1: Panorama der wichtigsten großen Modelle für 2024

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Schlüsselkomponente 2: Jährliches Gesamtranking und Modellierungsquadrant

Einführung in die Bewertung

Dieser Jahresbericht konzentriert sich auf die Bewertung der allgemeinen Kompetenzen, die aus drei Dimensionen bestehen: Wissenschaft, Kunst und Kunst.Die Fragen sind allesamt neue Originalfragenmit insgesamt 1 325 Mehrrunden-Kurzantwortfragen.

Die [Wissenschaftlichen Aufgaben] sind unterteilt in die Gruppen "Rechnen", "Logisches Denken" und "Codebewertung"; die [Künstlerischen Aufgaben] sind unterteilt in die Gruppen "Sprachverständnis", "Generatives Gestalten" und "Sicherheitsbewertung"; und die [Schwierigen Aufgaben] sind unterteilt in die Gruppen "Anweisungen folgen", "Tiefes Denken" und "Agentenbewertung".

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

Die Daten dieser Auswertung werden aus den SuperCLUE-Evaluierungsergebnissen vom Dezember ausgewählt, und das Modell wird aus den repräsentativen 42 großen Modellen im In- und Ausland in der Dezember-Version ausgewählt.

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Rangliste

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Jahresmodell Quadrant

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Schlüsselelement 3: Verteilung von Zonen mit gutem Preis-Leistungs-Verhältnis

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

 

Große einheimische Modelle haben einen großen Vorteil in Bezug auf das Preis-Leistungs-Verhältnis (Preis + Wirksamkeit)

 

Inländische große Modelle wie DeepSeek-V3, Qwen2.5-72B-Instruct und Qwen2.5-32B-Instruct zeigen große Wettbewerbsfähigkeit in Bezug auf das Preis-/Leistungsverhältnis. Auf der Grundlage eines relativ hohen Maßes an Fähigkeit kann eine sehr niedrige Anwendung Kosten, bei der Anwendung der Landung zu zeigen, eine freundliche Benutzerfreundlichkeit zu erhalten.

 

Die meisten Modelle sind im mittleren Preissegment angesiedelt

 

Die meisten Modelle sind nach wie vor hochpreisig, um ein hohes Maß an Leistungsfähigkeit zu gewährleisten. Die Modelle GLM-4-Plus, Qwen-Max-latest, Claude 3.5 Sonnet und Grok-2-1212 kosten alle über 30 $ pro Million Token.

 

o1 und anderen Inferenzmodellen ist die Kostenwirksamkeit noch stark optimierungsfähig

 

Obwohl o1 und o1-preview ein hohes Maß an Leistungsfähigkeit aufweisen, sind sie preislich gesehen um ein Vielfaches teurer als andere Modelle. Die Senkung der Kosten könnte eine Voraussetzung für die breite Nutzung von Inferenzmodellen werden.

 

Schlüsselkomponente 4: Über die Verteilung von Effizienzintervallen nachdenken

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Einige inländische Modelle sind in Bezug auf die Gesamteffizienz wettbewerbsfähig

Unter den einheimischen Modellen haben DeepSeek-V3 und Qwen2.5-32B-Instruct eine ausgezeichnete Inferenzgeschwindigkeit mit einer durchschnittlichen Inferenzzeit von weniger als 10 Sekunden pro Frage, und gleichzeitig liegen die Benchmark-Ergebnisse über 60, was im Einklang mit der "Hochleistungszone" steht und eine sehr starke Anwendungseffizienz zeigt.

Gemini-2.0-Flash-Exp ist weltweit führend bei der Leistung von Big Model-Anwendungen

Die Übersee-Modelle Gemini-2.0-Flash-Exp, Claude 3.5 Sonnet (20241022), Grok-2-1212 und GPT-4o-mini qualifizieren sich für die "Hochleistungszone", wobei Gemini-2.0-Flash-Exp die beste kombinierte Effektivität in Bezug auf die Inferenzzeit und die Benchmark-Punktzahl aufweist. GPT-4o-mini schneidet in Bezug auf die Inferenzgeschwindigkeit am besten ab.

InferenzmodellIn Bezug auf die Leistung gibt es noch viel Optimierungspotenzial.

Obwohl das durch o1-preview repräsentierte Schlussfolgerungsmodell in der Benchmarkbewertung gut abschneidet, beträgt die durchschnittliche Schlussfolgerungszeit pro Frage etwa 40 Sekunden, und die Gesamtleistung entspricht dem "niedrigen Leistungsbereich". Um ein breites Spektrum an Anwendungsszenarien abzudecken, muss sich das Inferenzmodell auf die Verbesserung seiner Inferenzgeschwindigkeit konzentrieren.

 

Schlüsselkomponente 5: Nationale und internationale große Modellierungslücken und Trends, 2024

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Der allgemeine Trend geht dahin, dass sich die Kluft zwischen den allgemeinen Fähigkeiten der ersten Reihe inländischer und ausländischer großer Modelle im chinesischen Bereich vergrößert.

Von Mai 2023 bis heute haben sich die Fähigkeiten von Großmodellen im In- und Ausland weiterentwickelt. Unter ihnen haben die besten Übersee-Modelle, die durch die GPT-Serie von Modellen vertreten sind, mehrere Iterationen von GPT3 . 5, GPT4, GPT4 - Turbo, GPT4o, o1 mehrere Versionen von iterativen Upgrades.

Das inländische Modell durchlief ebenfalls einen unruhigen achtmonatigen Iterationszyklus und verringerte den Abstand von 0,121 TP3T im Mai 2 0 2 3 auf 1,291 TP3T im August 2024.

 

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Inländische Modelle, die von DeepSeek-V3 repräsentiert werden, kommen dem GPT-4o-latest sehr nahe

In den letzten zwei Jahren wurden die inländischen repräsentativen Modelle in mehreren Versionen weiterentwickelt. DeepSeek-V3, Doubao-pro, GLM-4-Plus und Qwen2.5 lagen bei chinesischen Aufgaben nahe am GPT-4o, wobei DeepSeek-V3 gut abschnitt und die Leistung von Claude 3.5 Sonnet in der Dezemberbewertung übertraf.

 

o1 Reasoning-Modelle, die auf dem neuen Paradigma des verstärkten Lernens basieren und 80 Punkte erreichen, um den Abstand zwischen den Spitzenmodellen im In- und Ausland zu vergrößern

In der SuperCLUE Bewertung im Dezember, den wichtigsten Kopf große Modelle im In-und Ausland in SuperCLUE Benchmark-Scores sind in 60-70 Punkte konzentriert. o1 und o1-Vorschau auf das neue Paradigma des Reinforcement Learning Inferenz-Modell zu einer wichtigen Technologie Vertreter des Durchbruchs der 70-Punkte-Engpass, vor allem die o1 formale Version des Durchbruchs der 80-Punkte-Marke, zeigt einen großen Vorsprung.

 

Schlüsselelement 6: Andere Subdimensionenlisten

Harte Liste

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Liste der wissenschaftlichen Fächer

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Liste der freien Künste

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Top 3 in China für jede Dimension

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Liste der Open-Source-Modelle

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Liste der Modelle bis zu 10B

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Liste der endseitigen Modelle bis zu 5B

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Liste der sekundären feinkörnigen Noten

Der Jahresbericht 2024 der chinesischen Benchmark-Messung für große Modelle wurde veröffentlicht! -1

 

Aus Platzgründen wird in diesem Papier nur ein Teil des Berichts wiedergegeben. Der vollständige Inhalt umfasst die Bewertungsmethodik, Bewertungsbeispiele, Teilaufgabenlisten, Multimodalität, Anwendungen und eine Einführung in Inferenz-Benchmarks.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " 2024 Chinesischer Benchmarking-Bericht für große Modelle (SuperCLUE)

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)