Informe de evaluación comparativa de grandes modelos chinos 2024 (SuperCLUE)

contextos

Desde 2023, los Big Models de IA han estado creando la mayor oleada de IA jamás vista a escala mundial. A medida que nos adentramos en 2024, la dinámica competitiva de la Big Model global está aumentando yCon el lanzamiento del Sora, el GPT-4o y el o1, los grandes modelos nacionales tuvieron una persecución de grandes modelos en 2024.

2024年度中文大模型基准测评报告(SuperCLUE)

SuperCLUE, la referencia de evaluación de grandes modelos chinos, ha realizado un seguimiento continuo en tiempo real de la tendencia de desarrollo y el efecto global de los grandes modelos nacionales e internacionales, y se ha publicado oficialmente.Informe anual de evaluación comparativa de grandes modelos chinos 2024.

El informe completo consta de 89 páginas, este artículo sólo muestra el contenido clave del informe, la dirección completa del informe en línea (descargable):

www.cluebenchmarks.com/superclue_2024

SuperCLUE Leaderboard Dirección:

www.superclueai.com

 

Elementos clave del informe

Componente clave 1: Panorama de los grandes modelos más destacados para 2024

2024年度中文大模型基准测评报告(SuperCLUE)

 

Componente clave 2: Clasificación general anual y cuadrante de modelización

Introducción a la evaluación

Este informe anual se centra en la Evaluación de Competencias Generales (GCA), que consta de tres dimensiones: Ciencias, Artes y Destrezas.Todas las preguntas son nuevas y originalescon un total de 1 325 preguntas de respuesta corta en varias rondas.

Las [Tareas Científicas] se dividen en conjuntos de Computación, Razonamiento Lógico y Evaluación de Códigos; las [Tareas Artísticas] se dividen en conjuntos de Comprensión del Lenguaje, Creación Generativa y Evaluación de la Seguridad; y las [Tareas Difíciles] se dividen en conjuntos de Seguimiento de Instrucciones, Razonamiento Profundo y Evaluación de Agentes.

2024年度中文大模型基准测评报告(SuperCLUE)

Los datos de esta evaluación se seleccionan a partir de los resultados de la evaluación SuperCLUE-diciembre, y el modelo se selecciona entre los 42 grandes modelos representativos nacionales y extranjeros de la versión de diciembre.

2024年度中文大模型基准测评报告(SuperCLUE)

 

tabla clasificatoria

2024年度中文大模型基准测评报告(SuperCLUE)

 

Modelo anual cuadrante

2024年度中文大模型基准测评报告(SuperCLUE)

 

Elemento clave 3: Distribución de zonas de rentabilidad

2024年度中文大模型基准测评报告(SuperCLUE)

 

 

Los grandes modelos nacionales tienen una gran ventaja en cuanto a relación calidad-precio (precio + eficacia)

 

Los grandes modelos nacionales como DeepSeek-V3, Qwen2.5-72B-Instruct y Qwen2.5-32B-Instruct muestran una gran competitividad en términos de relación calidad-precio. Sobre la base de un nivel relativamente alto de capacidad puede mantener un coste de aplicación muy bajo, en la aplicación de aterrizaje para mostrar una facilidad de uso amigable.

 

La mayoría de los modelos tienen una relación calidad-precio media

 

La mayoría de los modelos siguen teniendo un precio elevado para mantener un alto nivel de capacidad. Por ejemplo, GLM-4-Plus, Qwen-Max-latest, Claude 3.5 Sonnet y Grok-2-1212 tienen un precio superior a 30 dólares por millón de fichas.

 

o1 y otros modelos de inferencia tienen más margen de optimización en términos de rentabilidad

 

Aunque o1 y o1-preview muestran un alto nivel de capacidad, son varias veces más caros que otros modelos en términos de precio. Cómo reducir el coste podría convertirse en un requisito previo para el uso generalizado de los modelos de inferencia.

 

Componente clave 4: Razonamiento sobre la distribución de los intervalos de eficiencia

2024年度中文大模型基准测评报告(SuperCLUE)

 

Algunos modelos nacionales son competitivos en términos de eficacia general

Entre los modelos nacionales, DeepSeek-V3 y Qwen2.5-32B-Instruct tienen una velocidad de inferencia excelente, con un tiempo medio de inferencia inferior a 10 s por pregunta, y al mismo tiempo, las puntuaciones de los benchmarks son superiores a 60, lo que está en línea con la "zona de alto rendimiento" y muestra una gran eficacia de la aplicación.

Gemini-2.0-Flash-Exp lidera el rendimiento mundial de las aplicaciones de grandes modelos

Los modelos de ultramar Gemini-2.0-Flash-Exp, Claude 3.5 Sonnet (20241022), Grok-2-1212 y GPT-4o-mini se clasifican en la "zona de alto rendimiento", siendo Gemini-2.0-Flash-Exp el que obtiene los mejores resultados en términos de eficacia combinada en cuanto a tiempo de inferencia y puntuación de referencia. GPT-4o-mini obtiene los mejores resultados en términos de velocidad de inferencia.

modelo de inferenciaHay mucho margen de optimización en términos de rendimiento.

Aunque el modelo de inferencia representado por o1-preview obtiene buenos resultados en la puntuación de referencia, el tiempo medio de inferencia por pregunta es de unos 40s, y el rendimiento global es coherente con la "zona de bajo rendimiento". Para disponer de una amplia gama de escenarios de aplicación, el modelo de inferencia debe centrarse en mejorar su velocidad de inferencia.

 

Componente clave 5: Grandes lagunas y tendencias en la modelización nacional e internacional, 2024

2024年度中文大模型基准测评报告(SuperCLUE)

 

La tendencia general es que la brecha entre las capacidades genéricas del primer nivel de grandes modelos nacionales y extranjeros en el ámbito chino es cada vez mayor.

Desde mayo de 2023 hasta la actualidad, las capacidades de los grandes modelos nacionales y extranjeros han seguido desarrollándose. Entre ellos, los mejores modelos de ultramar representados por la serie GPT de modelos han pasado por múltiples iteraciones de GPT3 . 5, GPT4, GPT4 - Turbo, GPT4o, o1 de múltiples versiones de actualizaciones iterativas.

El modelo nacional también pasó por un ciclo de iteración agitado de 1 8 meses, reduciendo la diferencia de 0,121 TP3T en mayo de 2 0 2 3 a 1,291 TP3T en agosto de 2024. pero con la publicación de o1, la diferencia se amplió de nuevo a 15,051 TP3T.

 

2024年度中文大模型基准测评报告(SuperCLUE)

 

Los modelos nacionales representados por DeepSeek-V3 se acercan mucho a GPT-4o-latest

En los últimos 2 años, los modelos representativos nacionales han sido iterados en varias versiones, DeepSeek-V3, Doubao-pro, GLM-4-Plus, y Qwen2.5 han estado cerca de GPT-4o en las tareas chinas, entre los cuales DeepSeek-V3 ha tenido un buen rendimiento, superando el rendimiento de Claude 3.5 Sonnet en la evaluación de diciembre.

 

o1 Modelo de razonamiento basado en el nuevo paradigma del aprendizaje por refuerzo, que supera los 80 puntos y amplía la diferencia entre los mejores modelos nacionales y extranjeros.

En la evaluación SuperCLUE de diciembre, los principales modelos de gran cabeza nacionales y extranjeros en las puntuaciones de referencia SuperCLUE se concentran en 60-70 puntos. o1 y o1-preview basado en el nuevo paradigma de modelo de inferencia de aprendizaje por refuerzo se convierten en una importante tecnología representativa del avance del cuello de botella de 70 puntos, especialmente la versión formal de o1 del avance de la marca de 80 puntos, mostrando una gran ventaja de liderazgo.

 

Elemento clave 6: Otras listas de subdimensiones

Lista dura

2024年度中文大模型基准测评报告(SuperCLUE)

 

Lista de materias científicas

2024年度中文大模型基准测评报告(SuperCLUE)

 

Lista de Artes Liberales

2024年度中文大模型基准测评报告(SuperCLUE)

 

Los 3 primeros de China en cada dimensión

2024年度中文大模型基准测评报告(SuperCLUE)

 

Lista de modelos de código abierto

2024年度中文大模型基准测评报告(SuperCLUE)

 

Lista de modelos hasta 10B

2024年度中文大模型基准测评报告(SuperCLUE)

 

Lista de modelos de terminales hasta 5B

2024年度中文大模型基准测评报告(SuperCLUE)

 

Lista de puntuaciones finas secundarias

2024年度中文大模型基准测评报告(SuperCLUE)

 

Debido a la limitación de espacio, este documento sólo muestra una parte del informe. El contenido completo incluye la metodología de evaluación, ejemplos de evaluación, listas de subtareas, multimodalidad, aplicaciones e introducción a los parámetros de inferencia.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...