" Lanzamiento del programa chino de evaluación comparativa del razonamiento científico (SuperCLUE-Ciencia)

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Con el rápido desarrollo de la tecnología de IA, la capacidad de los grandes modelos lingüísticos para razonar sobre temas científicos difíciles a nivel de posgrado se ha convertido en un tema candente de investigación. Tomando como ejemplo OpenAI, su nuevo modelo OpenAI o1, lanzado oficialmente a principios de diciembre, demuestra una fuerterazonamiento científicoEl o1 obtuvo unos resultados sorprendentes en el GPQA-Diamond, una prueba de referencia para evaluar los conocimientos de posgrado en física, química y biología, demostrando capacidades comparables a las de un doctor humano.

Con el fin de evaluar de forma más eficaz el rendimiento de los grandes modelos en este sentido, sobre todo teniendo en cuenta que en China está surgiendo un gran número de grandes modelos con excelentes capacidades de razonamiento científico, hemos lanzado la evaluación comparativa integral china SuperCLUE basada en la acumulación de laEn Razonamiento científicoSuperCLUE-Ciencia (evaluación comparativa de la alfabetización). Esta comparativa se centra principalmente en la evaluación de los grandes modelos chinos en elPreguntas científicas de nivel universitarioen el rendimiento del modelo, con el objetivo de proporcionar una referencia más específica para el futuro desarrollo del modelo.

 

SuperCLUE-Cienciasistema de evaluación

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Nota: El sistema de evaluación específico está sujeto al informe de evaluación publicado oficialmente.

 

1. Características

(1)exhaustividad

Los puntos de referencia abarcan una amplia gama de dominios de conocimiento y complejidad, y se desarrollan en detalle para los subdominios de las asignaturas secundarias de las tres categorías de Física, Química y Biología, con el fin de garantizar una evaluación exhaustiva de la capacidad de razonamiento científico del Gran Modelo Chino.

(2) Objetivosufijo que forma un sustantivo a partir de un adjetivo, correspondiente a -ness o -ity

La Evaluación Comparativa de Razonamiento Científico concede un gran valor a la objetividad de las preguntas científicas, lo que se garantiza construyendo el conjunto de evaluación en forma de pares pregunta-respuesta bien diseñados, objetivos y resolubles. En el proceso de evaluación, prestamos especial atención a la precisión de las respuestas dadas por el Gran Modelo.

(3) Desafíossufijo que forma un sustantivo a partir de un adjetivo, correspondiente a -ness o -ity

Para medir el rendimiento del modelo en situaciones complejas y preguntas científicas difíciles, introdujimos preguntas científicas de nivel universitario que suponían un reto, tanto por la amplitud de conocimientos que abarcaban como por la profundidad de razonamiento que requerían.

 

2. misión de evaluación

Con el fin de evaluar de forma más eficaz la capacidad del Gran Modelo para razonar científicamente a nivel de posgrado, medimos temas en tres disciplinas -Física, Química y Biología- y ampliamos en detalle los subdominios secundarios bajo sus respectivas disciplinas para garantizar una cobertura exhaustiva de los diferentes dominios científicos. Los subdominios secundarios se muestran a continuación:

  • fisioterapiamecánica cuántica, física de partículas de alta energía, física general, astrofísica, electromagnetismo y fotónica, mecánica relativista, mecánica estadística, física de la materia condensada, óptica y acústica
  • quimioterapiaQuímica orgánica, química general, química inorgánica, química analítica, química física
  • organismos: Biología molecular, Genética

A continuación, presentaremos brevemente algunas de las categorías y mostraremos los ejemplos correspondientes.

2.1 Mecánica cuántica

La mecánica cuántica es un campo puntero de la física que explora el comportamiento exótico de las partículas en el mundo microscópico. En este campo intervienen conceptos como la dualidad onda-partícula, la superposición cuántica y el entrelazamiento, y requiere una comprensión profunda del principio de incertidumbre y la evolución de los estados cuánticos. La física cuántica no sólo desafía los conceptos tradicionales de la física, sino que también promueve el desarrollo de tecnologías como la computación y la comunicación cuánticas, lo que la convierte en un área clave para la exploración científica y la innovación tecnológica.

Ejemplo:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.2 Física de partículas energéticas

La física de partículas de alta energía es el estudio de las partículas más fundamentales del universo y sus interacciones. Este campo abarca la tecnología de los aceleradores, los detectores de partículas y el análisis de datos, y su objetivo es desvelar la composición fundamental de la materia y el origen del universo. Los experimentos de física de partículas de alta energía, como el Gran Colisionador de Hadrones (LHC), están en la vanguardia de los descubrimientos científicos, ya que requieren mediciones precisas y complejos análisis de datos, y fomentan una actitud científica rigurosa y la colaboración interdisciplinaria.

Ejemplo:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.3 Química orgánica

La química orgánica es la ciencia de la estructura, las propiedades y los métodos sintéticos de los compuestos que contienen carbono. Este campo se ocupa de las propiedades de enlace tetravalente de los átomos de carbono, la estereoquímica y los mecanismos de reacción, y explora los misterios de los productos naturales y los polímeros sintéticos. La química orgánica no sólo enriquece la base teórica para el desarrollo de fármacos y la ciencia de materiales, sino que también desarrolla la capacidad de analizar estructuras y diseñar síntesis, lo que la convierte en una parte muy creativa del campo de la química.

Ejemplo:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.4 Química física

La fisicoquímica es un campo interdisciplinar en la intersección de la química y la física que estudia la base física de los fenómenos químicos. Este campo abarca la termodinámica, la química cuántica, la electroquímica y la cinética, y aplica las leyes de la física para explicar la naturaleza de las reacciones químicas. La fisicoquímica no sólo profundiza en la comprensión del enlace químico y las velocidades de reacción, sino que también promueve el desarrollo de la catálisis, la espectroscopia y otras tecnologías, y es un puente entre la teoría y la experimentación.

Ejemplo:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.5 Genética

La genética es el estudio de los patrones de transmisión de la información genética y la variación en los organismos vivos. Este campo abarca la estructura de los genes, la recombinación genética, la epigenética y la genética de poblaciones, y revela el origen y la evolución de la diversidad biológica. La genética no sólo proporciona la base teórica para el diagnóstico y tratamiento de enfermedades genéticas en medicina, sino que también promueve el desarrollo de la mejora agrícola y la conservación ecológica, y es un campo fundamental en las ciencias de la vida. Por ejemplo:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.6 Biología molecular

La biología molecular es la ciencia de la estructura y función de las macromoléculas biológicas. Este campo abarca la replicación del ADN, la transcripción y la traducción, el plegamiento y las interacciones de las proteínas, y revela los mecanismos moleculares de las actividades vitales. La biología molecular no sólo profundiza en la comprensión de la regulación de la expresión génica, sino que también promueve el desarrollo de campos emergentes como la edición de genes y la bioinformática, y es una herramienta clave para explorar los misterios de la vida en las ciencias biológicas. Ejemplo: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

 

3. Ejemplos de métodos de medición y evaluación

Métodos e ideas de puntuación

1. Ideas para los métodos de puntuaciónTomando como referencia el método de puntuación del punto de referencia de evaluación del trabajo en equipo SuperCLUE-CoT "Razonamiento encadenado", se construye un conjunto de evaluación específico para evaluar cada dimensión y proporcionar comentarios detallados.

2. Construcción del juego de medidas

El proceso de creación de un banco de preguntas chino para el razonamiento científico: 1. recopilación y organización de conocimientos especializados de nivel universitario en química, física y biología ---> 2. redacción de preguntas chinas de razonamiento científico ---> 3. realización de pruebas ---> 4. revisión y finalización del banco de preguntas chino para el razonamiento científico, con referencia a las normas nacionales e internacionales, y construcción de un conjunto específico de evaluaciones para cada una de las dimensiones.

3. Criterios de puntuación

Todo el proceso de evaluación se dividió en varias etapas clave: en primer lugar, se preparó el material del banco de preguntas para garantizar la exactitud e integridad de los datos de entrada. A continuación, se analizaron las respuestas al modelo grande basándose en criterios de evaluación detallados. Por último, se aplican rigurosas reglas de calificación para puntuar las respuestas al gran modelo. Este proceso proporciona preguntas correspondientes alcalibración manualrespuestas de referencia para la evaluación objetiva.

Los criterios de evaluación abarcan dos dimensiones importantes para examinar el razonamiento científico, a saberel proceso de resolución de un problemaresponder cantandorespuesta definitivaque garantiza una evaluación exhaustiva de la capacidad de razonamiento del modelo en preguntas científicas de dificultad de nivel de posgrado.

Las normas de puntuación son de naturaleza cuantitativa, con el fin de garantizar el carácter científico y equitativo del proceso de evaluación. También hemos introducido un sistema de puntuación automatizado de última generación, que reduce en gran medida la intervención manual y mejora aún más la eficacia y coherencia de la evaluación.

Los criterios de evaluación de cada dimensión se definen claramente en la tarea de evaluación. Combinando el proceso de evaluación, los criterios y las reglas de puntuación, las preguntas se introducen en el big model para su evaluación, y finalmente se obtienen los resultados de la evaluación de cada dimensión. Este enfoque sistemático no sólo mejora la precisión de la evaluación, sino que también proporciona un sólido soporte de datos para la mejora del big model.

4.Criterios de evaluación

Para evaluar la calidad de respuesta de cada macromodelo en la tarea de evaluación, adoptamos dos criterios de evaluación.

En el sistema de evaluación de las preguntas de razonamiento científico, la rúbrica básica se centra principalmente en la"La respuesta final"La precisión y exactitud del"El proceso de resolución de problemas"El rigor de los pasos de razonamiento en la consideración. Dados los escenarios en los que se utiliza el Big Language Model, lo hemos personalizado y optimizado en profundidad para el tipo específico de pregunta de razonamiento científico con el fin de adaptarlo a sus retos únicos.

Las preguntas de razonamiento científico se diferencian de las preguntas de ciencias convencionales en que tocan la profundidad académica del nivel de posgrado, no sólo abarcan una amplia gama de conocimientos, sino que también son más intrincadas en el razonamiento lógico, obligando a los que las resuelven a pensar fuera del modo de pensamiento tradicional y a adoptar estrategias de pensamiento innovadoras. Por lo tanto, al evaluar este tipo de preguntas, no sólo controlamos estrictamente la precisión de la respuesta final, sino que también concedemos gran importancia a la claridad y racionalidad de la lógica del razonamiento en el proceso de resolución de las preguntas, y nos esforzamos por medir la capacidad de razonamiento científico de los resolutores de forma exhaustiva y en profundidad.

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Con estos dos criterios de evaluación, esperamos poder valorar de forma exhaustiva y objetiva el rendimiento de cada uno de los grandes modelos en las tareas de medición y proporcionar información valiosa para seguir mejorando y optimizando.

Ejemplo de evaluación

Para responder a las preguntas que preparamos utilizamos distintos modelos de gran tamaño, nacionales y extranjeros, y utilizamos el o1 Evaluación automatizada de las respuestas al Gran Modelo. A continuación se muestran ejemplos de evaluación para dos subdominios disciplinarios diferentes, respectivamente:

Ejemplo 1 Genética

[Pregunta]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

[Respuesta de referencia]: 38.25%

[Modelo (Modelo doméstico grande 1) Respuesta]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布Puntuación de los Supermodelos::

Evalúe esta respuesta del siguiente modo:PREGUNTAS Y OBSERVACIONES PARA MEJORAR: El asistente de IA no fue lógico al resolver la pregunta y no consideró adecuadamente el efecto de la frecuencia de recombinación en los gametos, lo que dio como resultado una respuesta final incorrecta. Los pasos de la solución no fueron lo suficientemente completos y claros.

  1. el proceso de resolución de un problema(5 puntos)::

Proceso de solución basado en el Criterio 1; el proceso de solución del asistente de IA no es lógicamente riguroso, tiene pasos incompletos y no considera correctamente el efecto de los eventos de recombinación en las proporciones de genotipos; puntuación de 1 basada en el Criterio 1.

Puntuación:1/5

  1. respuesta definitiva(5 puntos)::

Respuesta final basada en el Criterio 2; la respuesta final del AI Assistant no coincide con la respuesta de referencia y se responde incorrectamente; puntuación de 0 basada en el Criterio 2.

Puntuación:0/5Puntuación combinada = ( 1 + 0 ) / 2 = 0,5En conjunto.AIPuntuación combinada de las respuestas del asistente 0.5 Puntos.

[Modelo (Modelo grande de ultramar 1) Respuesta]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Puntuación de los Supermodelos::

Evalúe esta respuesta del siguiente modo:Las respuestas del asistente de IA mostraban cierta lógica a la hora de resolver las preguntas, pero había un error en el cálculo de la probabilidad clave, lo que daba lugar a una respuesta final que no coincidía con la respuesta de referencia. Es necesario reforzar la comprensión y la aplicación de la relación entre la frecuencia de recombinación y la probabilidad del genotipo en genética.

  1. Proceso de solución (5 puntos)::

Basado en el Criterio 1 ; los pasos de solución del asistente de IA son parcialmente correctos, es capaz de identificar las frecuencias de recombinación e intenta calcular la probabilidad de los tipos de gametos, pero hay un error en el cálculo de la probabilidad de recombinación combinada y la probabilidad de genotipo final, lo que conduce a un resultado inexacto; basado en las puntuaciones del Criterio 1, por ejemplo, 3 puntos.

Puntuación:3/5

  1. Respuesta final (5 puntos)::

Basado en la para el Criterio 2; la respuesta final proporcionada por el Asistente de IA, 12.31%, no coincide con la respuesta de referencia, 38.25%, y por lo tanto se puntúa como 0.

Puntuación: 0/5Puntuación combinada = ( 3 + 0 ) / 2 = 1,50

En conjunto.AIPuntuación combinada de las respuestas del asistente 1.50 Puntos.

# Ejemplo 2 Química Orgánica

[Pregunta]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

[Respuesta de referencia]: 0,082 ~ 0,093

[Modelo (Modelo doméstico grande 2) Respuesta]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Puntuación de los Supermodelos::

Evalúe esta respuesta del siguiente modo:El asistente de AI supuso incorrectamente que la concentración de iones hidroxilo permanecía constante durante la solución, lo que dio lugar a un cálculo final que no coincidía con la respuesta de referencia. La solución no aplica correctamente la fórmula de cinética de reacción secundaria, lo que afecta a la precisión de la respuesta.

Comienza la puntuación y la evaluación:

  1. Proceso de solución (5 puntos)::

La solución del asistente de IA no fue lógicamente rigurosa, con pasos incompletos y soluciones no válidas. Simplificó incorrectamente la reacción secundaria a una reacción primaria y no aplicó correctamente la fórmula cinética secundaria; puntuación basada en el criterio 1, p. ej. 1 punto.

Puntuación: 1/5

  1. Respuesta final (5 puntos)::

La respuesta final proporcionada por el asistente de IA, 0,045 M, no coincide con el intervalo de respuesta de referencia de 0,082 ~ 0,093 M. La respuesta es incorrecta; la puntuación basada en el criterio 2, por ejemplo, 0 puntos.

Puntuación: 0/5Puntuación combinada = ( 1 + 0 ) / 2 = 0,50

En conjunto.AIPuntuación combinada de las respuestas del asistente 0.50 Puntos.

[Modelo (Modelo grande de ultramar 2) Respuesta]:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Puntuación de los Supermodelos::

Evalúe esta respuesta del siguiente modo:El asistente de IA tiene una lógica clara y unos pasos completos para resolver el problema, que básicamente cumple los requisitos de la pregunta y la respuesta final es precisa. Sin embargo, hay una ligera imprecisión en la presentación del intervalo de valores en el paso final, por lo que se recomienda comprobar más a fondo los detalles del cálculo para garantizar una precisión completa.

Comienza la puntuación y la evaluación:

  1. Proceso de solución (5 puntos)::

La solución del asistente de IA es lógica, con pasos completos y claros, coherente con el análisis cinético de las reacciones de sustitución nucleofílica secundaria, y utiliza una metodología eficaz y adecuada. Puntuación basada en el Criterio 1, 4 puntos.

Puntuación: 4/5

  1. Respuesta final (5 puntos)::

La respuesta final proporcionada por el asistente de IA está dentro del rango de la respuesta de referencia, cumple los requisitos de la pregunta y es la respuesta correcta. Puntuación basada en el Criterio 2, 5 puntos.

Puntuación: 5/5Puntuación combinada = ( 4 + 5 ) / 2 = 4,50

En conjunto.AILa respuesta del asistente tiene una puntuación compuesta de 4.50 Puntos.

 

Invitación a la evaluación

planificación temporal

1. Inicio de la inscripción: 2 de enero

2. Confirmación del modelo de evaluación de los participantes: 10 de enero

3. Ejecución de la medida y estadísticas de resultados: del 10 al 15 de enero

4. Publicación de los resultados de la evaluación: 16 de eneroproceso de evaluación

1.Solicitud de correo

2. Comunicación de intenciones

3. Proceso de confirmación y acuerdo de participación

4. Proporcionar un modelo de API y documentación

5. Obtener un informe de evaluación

Solicite una revisión enTítulo del correo: SuperCLUE-Science Chinese Scientific Reasoning Assessment Application, 发送contact@superclue.ai请使用单位邮箱, el contenido del correo incluye: información de la unidad, perfil del modelo grande, persona de contacto y departamento, información de contacto.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...