Lancement du programme "Chinese Benchmark Assessment of Scientific Reasoning" (SuperCLUE-Science)

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Avec le développement rapide de la technologie de l'IA, la capacité des grands modèles de langage à raisonner sur des sujets scientifiques difficiles au niveau du troisième cycle est devenue un sujet de recherche brûlant. Si l'on prend l'exemple d'OpenAI, son nouveau modèle OpenAI o1, officiellement publié au début du mois de décembre, fait preuve d'une forte capacité de raisonnement dans des domaines scientifiques difficiles au niveau du troisième cycle.raisonnement scientifiqueL'o1 a obtenu des résultats étonnants au GPQA-Diamond, un test d'expertise de niveau universitaire en physique, chimie et biologie, démontrant des capacités comparables à celles d'un doctorat humain.

Afin d'évaluer plus efficacement les performances des grands modèles dans ce domaine, compte tenu notamment de l'émergence en Chine d'un grand nombre de grands modèles dotés d'excellentes capacités de raisonnement scientifique, nous avons lancé le SuperCLUE Chinese comprehensive benchmark, basé sur l'accumulation des données de l'étude SuperCLUE.Dans le domaine du raisonnement scientifiqueSuperCLUE-Science (une évaluation de référence de la littératie). Ce benchmark se concentre principalement sur l'évaluation des grands modèles chinois dans le domaine de la santé.Questions scientifiques de niveau universitairedans la performance du modèle, dans le but de fournir une référence plus ciblée pour le développement futur du modèle.

 

SuperCLUE-Sciencesystème d'évaluation

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Note : Le système d'évaluation spécifique est soumis au rapport d'évaluation officiellement publié.

 

1. caractéristiques

(1)exhaustivité

Les critères de référence couvrent un large éventail de domaines de connaissances et de complexité, et sont élaborés en détail pour les sous-domaines des matières secondaires dans les trois catégories de la physique, de la chimie et de la biologie, afin de garantir une évaluation complète de la capacité du grand modèle chinois en matière de raisonnement scientifique.

(2) Objectifsuffixe formant un nom à partir d'un adjectif, correspondant à -ness ou -ity

L'évaluation de référence du raisonnement scientifique accorde une grande importance à l'objectivité des questions scientifiques, qui est garantie par la construction de l'ensemble d'évaluation sous la forme de paires de questions-réponses bien conçues qui sont objectives et résolubles. Lors du processus d'évaluation, nous accordons une attention particulière à la précision des réponses données par le Grand Modèle.

(3) Défissuffixe formant un nom à partir d'un adjectif, correspondant à -ness ou -ity

Afin de mesurer les performances du modèle sur des scénarios complexes et des questions scientifiques difficiles, nous avons introduit des questions scientifiques difficiles de niveau universitaire en termes d'étendue des connaissances couvertes par les questions et de profondeur du raisonnement requis pour les questions.

 

2. mission d'évaluation

Afin d'évaluer plus efficacement la capacité du Grand Modèle à raisonner scientifiquement au niveau du troisième cycle, nous avons mesuré des sujets dans trois disciplines - physique, chimie et biologie - et développé en détail les sous-domaines secondaires sous leurs disciplines respectives afin d'assurer une couverture complète des différents domaines scientifiques. Les sous-domaines secondaires sont présentés ci-dessous :

  • physiothérapieMécanique quantique, physique des particules de haute énergie, physique générale, astrophysique, électromagnétisme et photonique, mécanique relativiste, mécanique statistique, physique de la matière condensée, optique et acoustique.
  • chimiothérapieChimie organique, chimie générale, chimie inorganique, chimie analytique, chimie physique
  • organismesBiologie moléculaire, génétique

Ensuite, nous présenterons brièvement certaines catégories et nous donnerons des exemples correspondants.

2.1 Mécanique quantique

La mécanique quantique est un domaine de pointe de la physique qui explore le comportement exotique des particules dans le monde microscopique. Ce domaine fait appel à des concepts tels que la dualité onde-particule, la superposition quantique et l'intrication, et nécessite une compréhension approfondie du principe d'incertitude et de l'évolution des états quantiques. La physique quantique remet non seulement en question les concepts traditionnels de la physique, mais favorise également le développement de technologies telles que l'informatique et la communication quantiques, ce qui en fait un domaine clé pour l'exploration scientifique et l'innovation technologique.

Exemple :

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.2 Physique des particules énergétiques

La physique des particules de haute énergie est l'étude des particules les plus fondamentales de l'univers et de leurs interactions. Ce domaine englobe la technologie des accélérateurs, les détecteurs de particules et l'analyse des données, et vise à révéler la composition fondamentale de la matière et l'origine de l'univers. Les expériences de physique des particules de haute énergie, telles que le Grand collisionneur de hadrons (LHC), sont à la pointe de la découverte scientifique. Elles nécessitent des mesures précises et une analyse complexe des données, et encouragent une attitude scientifique rigoureuse et une collaboration interdisciplinaire.

Exemple :

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.3 Chimie organique

La chimie organique est la science de la structure, des propriétés et des méthodes de synthèse des composés contenant du carbone. Elle traite des propriétés de liaison tétravalente des atomes de carbone, de la stéréochimie et des mécanismes de réaction, et explore les mystères des produits naturels et des polymères synthétiques. La chimie organique enrichit non seulement la base théorique du développement des médicaments et de la science des matériaux, mais développe également la capacité d'analyser les structures et de concevoir des synthèses, ce qui en fait une partie très créative du domaine de la chimie.

Exemple :

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.4 Chimie physique

La chimie physique est un domaine interdisciplinaire à l'intersection de la chimie et de la physique qui étudie la base physique des phénomènes chimiques. Elle couvre la thermodynamique, la chimie quantique, l'électrochimie et la cinétique, et applique les lois de la physique pour expliquer la nature des réactions chimiques. La chimie physique permet non seulement d'approfondir la compréhension de la liaison chimique et des vitesses de réaction, mais elle favorise également le développement de la catalyse, de la spectroscopie et d'autres technologies, et constitue un pont entre la théorie et l'expérience.

Exemple :

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.5 Génétique

La génétique est l'étude des modes de transmission de l'information génétique et des variations dans les organismes vivants. Ce domaine comprend la structure des gènes, la recombinaison génétique, l'épigénétique et la génétique des populations. La génétique fournit non seulement la base théorique du diagnostic et du traitement des maladies génétiques en médecine, mais elle favorise également le développement de la sélection agricole et de la conservation écologique, et constitue un domaine essentiel des sciences de la vie. Il s'agit d'un domaine essentiel des sciences de la vie :

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.6 Biologie moléculaire

La biologie moléculaire est la science qui étudie la structure et la fonction des macromolécules biologiques. Ce domaine couvre la réplication de l'ADN, la transcription et la traduction, le repliement des protéines et leurs interactions, et révèle les mécanismes moléculaires des activités de la vie. La biologie moléculaire permet non seulement d'approfondir la compréhension de la régulation de l'expression des gènes, mais aussi de promouvoir le développement de domaines émergents tels que l'édition de gènes et la bio-informatique, et constitue un outil essentiel pour explorer les mystères de la vie dans les sciences du vivant. Il s'agit d'un outil essentiel pour explorer les mystères de la vie dans les sciences de la vie : 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

 

3. exemples de méthodes de mesure et d'évaluation

Méthodes et idées de notation

1. des idées pour les méthodes de notationEn se référant à la méthode de notation du référentiel d'évaluation du travail d'équipe SuperCLUE-CoT "Raisonnement en chaîne", un ensemble d'évaluation spécifique est construit pour évaluer chaque dimension et fournir un retour d'information détaillé.

2. construction d'un ensemble de mesures

Le processus de création d'une banque de questions chinoise pour le raisonnement scientifique : 1. collecte et organisation de l'expertise de niveau supérieur en chimie, physique et biologie ---> 2. rédaction de questions chinoises de raisonnement scientifique ---> 3. test ---> 4. révision et finalisation de la banque de questions chinoise pour le raisonnement scientifique, en se référant aux normes nationales et internationales, et construction d'un ensemble d'évaluations dédiées à chacune des dimensions.

3. les critères de notation

L'ensemble du processus d'évaluation a été divisé en plusieurs étapes clés : tout d'abord, le matériel de la banque de questions a été préparé afin de garantir l'exactitude et l'exhaustivité des données d'entrée. Ensuite, les réponses au grand modèle ont été analysées sur la base de critères d'évaluation détaillés. Enfin, des règles de notation rigoureuses sont appliquées pour évaluer les réponses au grand modèle. Ce processus permet d'obtenir des questions correspondant auxétalonnage manuelafficher les réponses de référence pour l'évaluation objective.

Les critères d'évaluation couvrent deux dimensions importantes pour l'examen du raisonnement scientifique, à savoirle processus de résolution d'un problèmerépondre en chantantréponse finalequi garantit une évaluation complète de la capacité de raisonnement du modèle sur des questions scientifiques d'un niveau de difficulté supérieur.

Les règles de notation sont de nature quantitative et visent à garantir le caractère scientifique et équitable du processus d'évaluation. Nous avons également introduit un système de notation automatisé de pointe, qui réduit considérablement les interventions manuelles et améliore encore l'efficacité et la cohérence de l'évaluation.

Les critères d'évaluation de chaque dimension sont clairement définis dans la tâche d'évaluation. En combinant le processus d'évaluation, les critères et les règles de notation, les questions sont introduites dans le grand modèle pour l'évaluation, et les résultats de l'évaluation de chaque dimension sont finalement obtenus. Cette approche systématique permet non seulement d'améliorer la précision de l'évaluation, mais aussi de fournir des données solides pour l'amélioration du grand modèle.

4.Critères d'évaluation

Pour évaluer la qualité de la réponse de chaque macromodèle à la tâche d'évaluation, nous adoptons deux critères d'évaluation.

Dans le système d'évaluation des questions de raisonnement scientifique, la rubrique principale se concentre principalement sur les éléments suivants"La réponse finaleLa précision et l'exactitude des"Le processus de résolution des problèmesLa rigueur des étapes du raisonnement dans la considération. Compte tenu des scénarios dans lesquels le Big Language Model est utilisé, nous l'avons profondément personnalisé et optimisé pour le type spécifique de question de raisonnement scientifique afin de répondre à ses défis uniques.

Les questions de raisonnement scientifique sont différentes des questions scientifiques conventionnelles en ce sens qu'elles touchent à la profondeur académique d'un niveau supérieur, couvrant non seulement un large éventail de connaissances, mais étant également plus complexes dans le raisonnement logique, obligeant les candidats à sortir du mode de pensée traditionnel et à adopter des stratégies de pensée novatrices. Par conséquent, lors de l'évaluation de ces questions, nous ne nous contentons pas de contrôler strictement l'exactitude de la réponse finale, mais nous attachons également une grande importance à la clarté et à la rationalité de la logique du raisonnement dans le processus de résolution des questions, et nous nous efforçons de mesurer la capacité de raisonnement scientifique des candidats d'une manière complète et approfondie.

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Grâce à ces deux critères d'évaluation, nous espérons être en mesure d'évaluer de manière complète et objective les performances de chacun des grands modèles dans les tâches de mesure et de fournir un retour d'information précieux en vue d'une amélioration et d'une optimisation ultérieures.

Exemple d'évaluation

Nous avons utilisé différents grands modèles nationaux et internationaux pour répondre aux questions que nous avions préparées et nous avons utilisé le système d'information sur la sécurité de l'UE. o1 Évaluation automatisée des réponses au Grand Modèle. Voici des exemples d'évaluation pour deux sous-domaines disciplinaires différents, respectivement :

Exemple 1 Génétique

[Question] : 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

[Réponse de référence] : 38.25%

[Modèle (grand modèle domestique 1) Réponse] : 「科学推理」中文基准测评(SuperCLUE-Science)方案发布Notation du super modèle: :

Évaluez cette réponse comme suit :QUESTIONS ET COMMENTAIRES D'AMÉLIORATION : L'assistant IA n'a pas été logique dans la résolution de la question et n'a pas correctement pris en compte l'effet de la fréquence de recombinaison sur les gamètes, ce qui a donné une réponse finale incorrecte. Les étapes de la solution n'étaient pas complètes ni suffisamment claires.

  1. le processus de résolution d'un problème(5 points): :

Processus de solution basé sur le critère 1 ; le processus de solution de l'assistant d'IA n'est pas logiquement rigoureux, comporte des étapes incomplètes et ne prend pas correctement en compte l'effet des événements de recombinaison sur les proportions de génotypes ; score de 1 basé sur le critère 1.

Score :1/5

  1. réponse finale(5 points): :

Réponse finale basée sur le critère 2 ; la réponse finale de l'assistant AI ne correspond pas à la réponse de référence et est incorrecte ; note de 0 basée sur le critère 2.

Score :0/5Score combiné = ( 1 + 0 ) / 2 = 0,5Pris ensemble.AIScore combiné des réponses de l'assistant 0.5 Points.

[Modèle (Grand modèle d'outre-mer 1) Réponse] : 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Notation du super modèle: :

Évaluez cette réponse comme suit :Les réponses de l'assistant d'IA ont fait preuve d'une certaine logique dans la résolution des questions, mais il y avait une erreur dans le calcul de la probabilité clé, ce qui a donné une réponse finale qui ne correspondait pas à la réponse de référence. La compréhension et l'application de la relation entre la fréquence de recombinaison et la probabilité du génotype en génétique doivent être renforcées.

  1. Processus de solution (5 points): :

Basé sur le critère 1 ; les étapes de la solution de l'assistant IA sont partiellement correctes, il est capable d'identifier les fréquences de recombinaison et tente de calculer la probabilité des types de gamètes, mais il y a une erreur dans le calcul de la probabilité de recombinaison combinée et de la probabilité du génotype final, ce qui conduit à un résultat inexact ; basé sur les scores du critère 1, par exemple, 3 points.

Score :3/5

  1. Réponse finale (5 points): :

D'après la du critère 2, la réponse finale fournie par l'assistant AI, 12,31%, ne correspond pas à la réponse de référence, 38,25%, et est donc notée 0.

Score : 0/5Note combinée = ( 3 + 0 ) / 2 = 1,50

Pris ensemble.AIScore combiné des réponses de l'assistant 1.50 Points.

# Exemple 2 Chimie organique

[Question] : 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

[Réponse de référence] : 0,082 ~ 0,093

[Modèle (grand modèle domestique 2) Réponse] : 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Notation du super modèle: :

Évaluez cette réponse comme suit :L'assistant AI a supposé à tort que la concentration en ions hydroxyle restait constante au cours de la solution, ce qui a donné lieu à un calcul final qui ne correspondait pas à la réponse de référence. La solution n'applique pas correctement la formule de cinétique de la réaction secondaire, ce qui affecte la précision de la réponse.

La notation et l'évaluation commencent :

  1. Processus de solution (5 points): :

La solution de l'assistant n'était pas rigoureuse sur le plan logique, avec des étapes incomplètes et des solutions non valides. A simplifié de manière incorrecte la réaction secondaire en une réaction primaire et n'a pas appliqué correctement la formule cinétique secondaire ; score basé sur le critère 1, par exemple 1 point.

Score : 1/5

  1. Réponse finale (5 points): :

La réponse finale fournie par l'assistant IA, 0,045 M, ne correspond pas à la plage de réponses de référence de 0,082 ~ 0,093 M. La réponse est incorrecte ; le score basé sur le critère 2, par exemple, 0 point.

Score : 0/5Score combiné = ( 1 + 0 ) / 2 = 0,50

Pris ensemble.AIScore combiné des réponses de l'assistant 0.50 Points.

[Modèle (grand modèle d'outre-mer 2) Réponse] :

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Notation du super modèle: :

Évaluez cette réponse comme suit :L'assistant d'IA présente une logique claire et des étapes complètes pour résoudre le problème, ce qui répond essentiellement aux exigences de la question et la réponse finale est exacte. Cependant, il y a une légère inexactitude dans la présentation de la plage de valeurs à la dernière étape, et il est recommandé de vérifier davantage les détails du calcul pour s'assurer qu'ils sont tout à fait exacts.

La notation et l'évaluation commencent :

  1. Processus de solution (5 points): :

La solution de l'assistant IA est logique, avec des étapes complètes et claires, cohérente avec l'analyse cinétique des réactions de substitution nucléophile secondaire, et utilise une méthodologie efficace et appropriée. Note basée sur le critère 1, 4 points.

Score : 4/5

  1. Réponse finale (5 points): :

La réponse finale fournie par l'assistant d'intelligence artificielle se situe dans la fourchette de la réponse de référence, répond aux exigences de la question et est la bonne. Score basé sur le critère 2, 5 points.

Score : 5/5Note combinée = ( 4 + 5 ) / 2 = 4,50

Pris ensemble.AILa réponse de l'assistant a un score composite de 4.50 Points.

 

Invitation à l'évaluation

planification du temps

1) Début de l'inscription : 2 janvier

2. confirmation du modèle d'évaluation des participants : 10 janvier

3. mise en œuvre des mesures et statistiques des résultats : 10-15 janvier

4) Publication des résultats de l'évaluation : 16 janvierprocessus d'évaluation

1. demande de courrier

2. la communication d'intention

3. le processus de confirmation et d'accord de participation

4. fournir l'API du modèle et la documentation

5. obtenir un rapport d'évaluation

Demande d'examen à l'adresse suivanteTitre du courrier : SuperCLUE-Science Chinese Scientific Reasoning Assessment Application, 发送contact@superclue.ai请使用单位邮箱, contenu du courrier : informations sur l'unité, profil du grand modèle, personne et service de contact, informations de contact.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...