「科学推理」中文基准测评（SuperCLUE-Science）方案发布

1.4K 00

随着人工智能技术的飞速发展，大语言模型在研究生级别的高难度科学题目上的推理能力已经成为了研究的热门话题。以 OpenAI 为例，其在12月初正式发布的新模型OpenAI o1展现了强大的科学推理能力，o1在测试研究生级别的物理、化学和生物学专业知识的基准GPQA-Diamond上表现惊人，展现了比肩人类博士级别的能力。

为了更有效地评估大模型在这方面的表现，尤其是考虑到国内正在涌现出大量具备卓越科学推理能力的大模型，我们基于 SuperCLUE 中文综合性基准的积累，推出了科学推理中文基准测评（SuperCLUE-Science）。这一基准主要专注于评估中文大模型在研究生级别的科学题中的表现，旨在为未来的模型开发提供更有针对性的参考。

SuperCLUE-Science测评体系

注：具体的测评体系以正式发布的测评报告为准。

1. 特点

（1）全面性

测评基准涵盖了广泛的知识领域和复杂度，分别针对物理、化学和生物三类学科下二级学科子领域进行详细展开，确保对中文大模型在科学推理能力上的全面评估。

（2）客观性

科学推理基准测评高度重视科学题目的客观性，通过精心设计的问题-答案对的形式来构建测评集合，从而确保了题目的客观性与有解性。在评估流程中，我们特别关注大模型给出的答案是否准确无误。

（3）挑战性

为了测评模型在复杂场景与高难度的科学题上的表现，我们从题目涵盖知识点的广度与题目所需推理深度两个方面出发，推出了具有挑战性的研究生级别难度的科学题。

2. 测评任务

为了更有效地评估大模型在研究生水平的科学推理能力，我们针对物理、化学和生物三类学科的题目进行测评，并将各自学科下的二级学科子领域进行详细展开，以确保全面覆盖不同的科学领域。二级子域展示如下：

物理：量子力学、高能粒子物理、通用物理、天体物理学、电磁学与光子学、相对论力学、统计力学、凝聚态物理、光学与声学
化学：有机化学，通用化学，无机化学，分析化学，物理化学
生物：分子生物学，遗传学

接下来，我们将对部分类别分别进行简单介绍，并且展示相对应的示例。

2.1量子力学

量子力学是物理学中的前沿领域，探索微观世界中粒子的奇异行为。该领域涉及波粒二象性、量子叠加与纠缠等概念，要求深入理解不确定性原理和量子态的演化。量子物理不仅挑战传统物理观念，还推动了量子计算、量子通信等技术的发展，是科研探索与技术创新的关键领域。

示例：

2.2高能粒子物理

高能粒子物理是研究宇宙中最基本粒子及其相互作用的学科。该领域涵盖加速器技术、粒子探测器与数据分析，旨在揭示物质的基本构成与宇宙的起源。高能粒子物理实验如大型强子对撞机（LHC）等，要求精确测量与复杂数据分析，培养严谨的科学态度与跨学科合作能力，是科学探索的尖端领域。

示例：

2.3有机化学

有机化学是研究含碳化合物结构、性质及合成方法的科学。该领域涉及碳原子的四价键特性、立体化学与反应机理，探索天然产物与合成高分子的奥秘。有机化学不仅丰富了药物开发、材料科学的理论基础，还培养了结构解析与合成设计的能力，是化学领域中极具创造性的部分。

示例：

2.4物理化学

物理化学是化学与物理学的交叉学科，研究化学现象的物理基础。该领域涵盖热力学、量子化学、电化学与动力学，运用物理定律解释化学反应的本质。物理化学不仅深化了对化学键、反应速率的理解，还促进了催化、光谱学等技术的发展，是连接理论与实验的桥梁。

示例：

2.5遗传学

遗传学是研究生物体遗传信息传递与变异规律的学科。该领域涉及基因结构、遗传重组、表观遗传学与群体遗传学，揭示生物多样性的起源与进化。遗传学不仅为医学遗传病诊断与治疗提供理论基础，还推动了农业育种与生态保护的发展，是生命科学中的核心领域。示例：

2.6分子生物学

分子生物学是研究生物大分子结构与功能的科学。该领域涵盖DNA复制、转录与翻译、蛋白质折叠与互作，揭示生命活动的分子机制。分子生物学不仅加深了对基因表达调控的理解，还促进了基因编辑、生物信息学等新兴领域的发展，是生命科学中探索生命奥秘的关键工具。示例：

3.测评方法和评估示例

评分方法与思路

1.评分方法的思路参考团队工作 SuperCLUE-CoT「链式推理」测评基准的评分方式，构建专用的测评集，针对每个维度进行评估，并提供详细的反馈信息。

2. 测评集构建

科学推理中文题库构建流程：1. 搜集和整理研究生级别的化学、物理和生物学专业知识 ---> 2. 中文科学推理题撰写 ---> 3. 测试 ---> 4. 修改并确定科学推理中文题库，参考国内外的标准，针对每一个维度构建专用的测评集。

3. 评分标准

整个评估过程分为了几个关键阶段：首先是准备题库材料，确保输入数据的准确性和完整性。接着，依据详细的评估标准对大模型的解答进行分析。最后，应用严格的评分规则为大模型的解答进行打分。这过程中会提供题目对应的人工校验后的参考答案，以便客观评估。

评估标准涵盖了两个考察科学推理的重要维度，包括解题过程和最终答案，确保全面评估模型在研究生级别难度科学题上的推理能力。

评分规则采用定量方式，旨在确保评估过程的科学性和公正性。我们还引入了先进的自动化评分系统，极大地减少了人工干预，进一步地提升评估的效率和一致性。

在测评任务中，每个维度的评估标准都得到了明确的界定。通过结合评估流程、标准和评分规则，将题目送入大模型进行评估，最终获得各个维度的评估结果。这一系统化的方法不仅提升了评估的精确度，还为大模型的改进提供了有力的数据支持。

4.评估标准

针对各个大模型在测评任务上的回答质量评估，我们采取两个评估标准进行评估。

在科学推理题目的评估体系中，核心评判准则首要聚焦于“最终答案”的精确无误，紧随其后的是对“解题过程”中推理步骤的严谨考量。鉴于大语言模型的应用场景，我们针对科学推理题这一特定类型，进行了深入的个性化调整与优化，以适应其独特的挑战。

科学推理题异于常规科学题目，它们触及研究生层次的学术深度，不仅知识覆盖面广泛，而且在逻辑推理上更为错综复杂，迫使解题者跳出传统思维模式，采用创新性的思考策略。因此，在对此类题目进行评估时，我们不仅严格把关最终答案的准确性，同时也高度重视解题过程中推理逻辑的清晰与合理性，力求全面、深入地衡量解题者的科学推理能力。

通过这两个评估标准，我们希望能够全面、客观地评估各个大模型在测评任务上的表现，为进一步的改进和优化提供有价值的反馈。

评估示例

我们采用了国内外不同的大模型来回答我们准备的问题，并使用 o1 对大模型的回答进行自动化的评估。以下分别为两个不同学科子域的评估案例：

示例1 遗传学

【问题】：「科学推理」中文基准测评（SuperCLUE-Science）方案发布

【参考答案】：38.25%

【模型（国产大模型 1）回答】：「科学推理」中文基准测评（SuperCLUE-Science）方案发布 超级模型评分：

对这个答案进行评估如下：问题及改进的反馈意见： AI助手在解题过程中逻辑不严密，未能正确考虑重组频率对配子的影响，导致最终答案错误。解题步骤不够完整和清晰。
解题过程（5分）：
基于标准1的解题过程；AI助手的解题过程逻辑不严密，步骤不完整，未正确考虑重组事件对基因型比例的影响；基于标准1的得分为1分。
得分：1/5
最终答案（5分）：
基于标准2的最终答案；AI助手的最终答案与参考答案不符，回答错误；基于标准2的得分为0分。
得分：0/5综合得分 = ( 1 + 0 ) / 2 = 0.5综合以上，AI助手的回答的综合得分为 0.5 分。

【模型（海外大模型 1）回答】：「科学推理」中文基准测评（SuperCLUE-Science）方案发布

超级模型评分：

对这个答案进行评估如下：AI助手的回答在解题过程中展现了一定的逻辑性，但在关键的概率计算环节出现了错误，导致最终答案与参考答案不符。需要加强对遗传学中重组频率与基因型概率关系的理解和应用。
解题过程（5分）：
基于标准1的<解题过程>；AI助手的解题步骤部分正确，能够识别重组频率并尝试计算配子类型的概率，但在综合重组概率和最终基因型概率的计算上存在误差，导致结果不准确；基于标准1的得分，如3分。
得分：3/5
最终答案（5分）：
基于标准2的<最终答案>；AI助手提供的最终答案12.31%与参考答案38.25%不符，因此得分为0分。
得分：0/5综合得分 = ( 3 + 0 ) / 2 = 1.50
综合以上，AI助手的回答的综合得分为 1.50 分。

# 示例2 有机化学

【问题】：「科学推理」中文基准测评（SuperCLUE-Science）方案发布

【参考答案】：0.082 ~ 0.093

【模型（国产大模型 2）回答】：「科学推理」中文基准测评（SuperCLUE-Science）方案发布

超级模型评分：

对这个答案进行评估如下：AI助手在解题过程中错误地假设羟基离子的浓度保持不变，导致最终计算结果与参考答案不符。解题方法未能正确应用二级反应动力学公式，影响了答案的准确性。
打分与评价开始：
解题过程（5分）：
AI助手的解题过程逻辑不严密，步骤不完整且解题方法无效。错误地将二级反应简化为一级反应，未正确应用二级动力学公式；基于标准1的得分，如1分。
得分：1/5
最终答案（5分）：
AI助手提供的最终答案0.045 M与参考答案范围0.082 ~ 0.093 M不符，答案错误；基于标准2的得分，如0分。
得分：0/5综合得分 = ( 1 + 0 ) / 2 = 0.50
综合以上，AI助手的回答的综合得分为 0.50 分。

【模型（海外大模型 2）回答】：

超级模型评分：

对这个答案进行评估如下：AI助手在解题过程中逻辑清晰，步骤完整，基本符合题目要求，最终答案准确。然而，在最后一步的数值范围表述上存在轻微的不准确，建议进一步核对计算细节以确保完全准确。
打分与评价开始：
解题过程（5分）：
AI助手的解题过程逻辑严密，步骤完整清晰，符合二级亲核取代反应的动力学分析，使用的方法有效且适当。基于标准1的得分，4分。
得分：4/5
最终答案（5分）：
AI助手提供的最终答案在参考答案的范围内，满足题目要求，答案正确。基于标准2的得分，5分。
得分：5/5综合得分 = ( 4 + 5 ) / 2 = 4.50
综合以上，AI助手的回答的综合得分为 4.50 分。