"중국 과학적 추론 벤치마크 평가(SuperCLUE-Science) 프로그램 발표

46.8K 00

AI 기술의 급속한 발전으로 대학원 수준의 어려운 과학 주제를 추론하는 대규모 언어 모델의 능력은 뜨거운 연구 주제가 되고 있습니다. OpenAI를 예로 들면, 12월 초에 공식적으로 출시된 새로운 모델인 OpenAI o1은 강력한과학적 추론o1은 물리학, 화학 및 생물학 분야의 대학원 수준의 전문성을 테스트하는 벤치마크인 GPQA-다이아몬드에서 놀라운 성과를 거두며 박사급에 필적하는 능력을 보여주었습니다.

이 분야의 대형 모델의 성능을 보다 효과적으로 평가하기 위해, 특히 중국에서 우수한 과학적 추론 능력을 갖춘 대형 모델이 다수 등장하고 있는 점을 고려하여, 그간의 축적된 데이터를 기반으로 SuperCLUE 중국어 종합 벤치마크를 출시했습니다.과학적 추론에서SuperCLUE-Science(문해력 벤치마크 평가). 이 벤치마크는 주로 중국의 대형 모델을 평가하는 데 중점을 둡니다.대학원 수준의 과학 문제를 모델 성능에 반영하여 향후 모델 개발을 위한 보다 타겟화된 참조를 제공하고자 합니다.

슈퍼클루-과학평가 시스템

참고: 구체적인 평가 시스템은 공식적으로 발표된 평가 보고서의 적용을 받습니다.

1. 특성

(1)포괄성

이 벤치마크는 광범위한 지식 영역과 복잡성을 다루며, 중국 빅 모델의 과학적 추론 능력을 종합적으로 평가하기 위해 물리학, 화학 및 생물학의 세 가지 범주에 따라 중등 과목의 하위 영역에 대해 자세히 개발되었습니다.

(2) 목표형용사에서 명사를 형성하는 접미사, 대응하는 -ness 또는 -ity

과학적 추론 벤치마크 평가는 과학적 문제의 객관성에 높은 가치를 두며, 이는 객관적이고 해결 가능한 잘 설계된 질문-답변 쌍의 형태로 평가 세트를 구성함으로써 보장됩니다. 평가 과정에서는 빅 모델이 제공하는 답변의 정확성에 특히 주의를 기울입니다.

(3) 도전 과제형용사에서 명사를 형성하는 접미사, 대응하는 -ness 또는 -ity

복잡한 시나리오와 어려운 과학적 질문에 대한 모델의 성능을 측정하기 위해 질문에서 다루는 지식의 폭과 질문에 필요한 추론의 깊이 측면에서 대학원 수준의 도전적인 과학적 질문을 도입했습니다.

2. 평가 미션

대학원 수준에서 빅 모델의 과학적 추론 능력을 보다 효과적으로 평가하기 위해 물리학, 화학, 생물학 등 세 가지 분야의 주제를 측정하고 각 분야의 보조 하위 영역을 세부적으로 확장하여 다양한 과학 영역을 포괄적으로 다룰 수 있도록 했습니다. 2차 하위 영역은 아래와 같습니다:

물리 치료양자역학, 고에너지 입자 물리학, 일반 물리학, 천체 물리학, 전자기학 및 광자학, 상대론 역학, 통계 역학, 응집 물질 물리학, 광학 및 음향학.
화학 요법: 유기 화학, 일반 화학, 무기 화학, 분석 화학, 물리 화학
유기체: 분자생물학, 유전학

다음으로 몇 가지 카테고리를 간략하게 소개하고 해당 예시를 보여드리겠습니다.

2.1 양자역학

양자역학은 미시 세계에서 입자의 이색적인 행동을 탐구하는 물리학의 최첨단 분야입니다. 이 분야에는 파동-입자 이중성, 양자 중첩, 얽힘과 같은 개념이 포함되며 불확실성 원리와 양자 상태의 진화에 대한 심도 있는 이해가 필요합니다. 양자 물리학은 전통적인 물리학 개념에 도전할 뿐만 아니라 양자 컴퓨팅 및 양자 통신과 같은 기술 개발을 촉진하여 과학 탐험과 기술 혁신의 핵심 분야로 자리 잡고 있습니다.

예시:

2.2 에너지 입자 물리학

고에너지 입자 물리학은 우주의 가장 근본적인 입자와 그 상호작용을 연구하는 학문입니다. 이 분야에는 가속기 기술, 입자 검출기, 데이터 분석이 포함되며 물질의 근본적인 구성과 우주의 기원을 밝히는 것을 목표로 합니다. 대형 강입자충돌기(LHC)와 같은 고에너지 입자 물리학 실험은 정밀한 측정과 복잡한 데이터 분석이 필요하며 엄격한 과학적 태도와 학제 간 협업을 필요로 하기 때문에 과학적 발견의 최첨단을 달리고 있는 분야입니다.

예시:

2.3 유기 화학

유기화학은 탄소 함유 화합물의 구조, 특성 및 합성 방법을 연구하는 과학입니다. 이 분야는 탄소 원자의 4가 결합 특성, 입체 화학 및 반응 메커니즘을 다루며 천연물과 합성 고분자의 신비를 탐구합니다. 유기화학은 신약 개발과 재료 과학의 이론적 기초를 풍부하게 할 뿐만 아니라 구조를 분석하고 합성을 설계하는 능력을 개발하여 화학 분야에서 매우 창의적인 분야입니다.

예시:

2.4 물리 화학

물리화학은 화학과 물리학의 교차점에 있는 학제 간 분야로 화학 현상의 물리적 기초를 연구하는 학문입니다. 이 분야는 열역학, 양자 화학, 전기 화학 및 동역학을 다루며 물리학 법칙을 적용하여 화학 반응의 본질을 설명합니다. 물리화학은 화학 결합과 반응 속도에 대한 이해를 심화할 뿐만 아니라 촉매, 분광학 및 기타 기술의 발전을 촉진하고 이론과 실험을 연결하는 가교 역할을 합니다.

예시:

2.5 유전학

유전학은 유전 정보의 전달 패턴과 생물체의 변이를 연구하는 학문입니다. 이 분야에는 유전자 구조, 유전자 재조합, 후성유전학 및 집단 유전학이 포함되며 생물학적 다양성의 기원과 진화를 밝혀냅니다. 유전학은 의학에서 유전 질환의 진단과 치료를 위한 이론적 기반을 제공할 뿐만 아니라 농업 육종과 생태 보존의 발전을 촉진하며 생명과학의 핵심 분야입니다. 예시:

2.6 분자 생물학

분자 생물학은 생물학적 거대 분자의 구조와 기능을 연구하는 과학입니다. 이 분야는 DNA 복제, 전사 및 번역, 단백질 접힘 및 상호 작용을 다루며 생명 활동의 분자 메커니즘을 밝혀냅니다. 분자 생물학은 유전자 발현 조절에 대한 이해를 심화시킬 뿐만 아니라 유전자 편집 및 생물정보학 등 새로운 분야의 발전을 촉진하고 생명과학에서 생명의 신비를 탐구하는 핵심 도구입니다. 예시:

측정 방법 및 평가의 예 3.

채점 방법 및 아이디어

1. 채점 방법에 대한 아이디어팀워크 SuperCLUE-CoT "연쇄 추론" 평가 벤치마크의 채점 방법을 참고하여 각 차원을 평가하고 자세한 피드백을 제공하는 전용 평가 세트를 구성합니다.

2. 측정 세트 구성

과학적 추론을 위한 중국어 문제 은행 구축 과정: 1. 화학, 물리학 및 생물학 분야의 대학원 수준의 전문 지식 수집 및 정리 ---> 2. 중국어 과학 추론 문제 작성 ---> 3. 테스트 ---> 4. 국가 및 국제 표준을 참조하여 과학적 추론을 위한 중국어 문제 은행을 수정 및 확정하고 각 차원에 대한 전용 평가 세트를 구성합니다.

3. 채점 기준

전체 평가 프로세스는 몇 가지 주요 단계로 나뉘는데, 먼저 입력 데이터의 정확성과 완전성을 보장하기 위해 설문 자료를 준비했습니다. 다음으로, 세부 평가 기준에 따라 빅 모델에 대한 답변을 분석했습니다. 마지막으로 엄격한 채점 규칙을 적용하여 빅 모델에 대한 답변에 점수를 매깁니다. 이 프로세스를 통해수동 보정객관적인 평가를 위해 참조 답변을 게시합니다.

평가 기준은 과학적 추론을 검토하는 데 있어 다음과 같은 두 가지 중요한 차원을 다룹니다.문제를 해결하는 과정노래로 응답최종 답변대학원 수준의 난이도 높은 과학 문제에 대한 모델의 추론 능력을 종합적으로 평가할 수 있습니다.

채점 규칙은 과학적이고 공정한 평가 과정을 보장하기 위해 본질적으로 정량적입니다. 또한 최첨단 자동 채점 시스템을 도입하여 수작업 개입을 대폭 줄이고 평가의 효율성과 일관성을 더욱 향상시켰습니다.

각 차원에 대한 평가 기준은 평가 과제에 명확하게 정의되어 있습니다. 평가 프로세스, 기준 및 채점 규칙을 결합하여 문제를 평가용 빅 모델에 입력하면 각 차원의 평가 결과가 최종적으로 얻어집니다. 이러한 체계적인 접근 방식은 평가의 정확성을 향상시킬 뿐만 아니라 빅 모델의 개선을 위한 강력한 데이터 지원도 제공합니다.

4.평가 기준

평가 과제에 대한 각 매크로 모델의 응답 품질을 평가하기 위해 두 가지 평가 기준을 채택하여 평가합니다.

과학적 추론 문제에 대한 평가 시스템에서 핵심 루브릭은 주로 다음과 같은 사항에 중점을 둡니다."최종 답"정밀도와 정확성"문제 해결 과정"추론 단계의 엄격함을 고려했습니다. 빅 언어 모델이 사용되는 시나리오를 고려하여 특정 유형의 과학적 추론 문제에 맞게 심층적으로 개인화 및 최적화하여 고유한 과제를 해결했습니다.

과학적 추론 문제는 대학원 수준의 학문적 깊이를 다루고 광범위한 지식을 다룰 뿐만 아니라 논리적 추론이 더 복잡하여 풀이자가 전통적인 사고 방식에서 벗어나 혁신적인 사고 전략을 채택하도록 강요한다는 점에서 기존의 과학 문제와 다릅니다. 따라서 이러한 문제를 평가할 때 최종 답변의 정확성을 엄격하게 관리할 뿐만 아니라 문제를 푸는 과정에서 추론 논리의 명확성과 합리성을 중시하고, 풀이자의 과학적 추론 능력을 종합적이고 심도 있게 측정하기 위해 노력합니다.

이 두 가지 평가 기준을 통해 측정 과제에 대한 각 빅 모델의 성능을 종합적이고 객관적으로 평가하고 추가 개선 및 최적화를 위한 귀중한 피드백을 제공할 수 있기를 바랍니다.

평가의 예

우리는 준비한 질문에 답하기 위해 국내외의 다양한 대형 모델을 사용했습니다. o1 빅 모델에 대한 응답을 자동으로 평가합니다. 다음은 각각 다른 두 가지 규율 하위 영역에 대한 평가의 예입니다:

예제 1 유전학

[질문]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

[참조 답변]: 38.25%

[모델(국내 대형 모델 1) 답변]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布 슈퍼 모델 채점::

이 답변은 다음과 같이 평가합니다:개선이 필요한 질문 및 피드백: AI 어시스턴트가 문제를 풀 때 논리적이지 않았고, 유전자 재조합 빈도가 생식에 미치는 영향을 제대로 고려하지 않아 최종 정답이 잘못되었습니다. 해결 단계가 완전하고 명확하지 않았습니다.
문제를 해결하는 과정(5점)::
기준 1 기반 솔루션 프로세스; AI 어시스턴트의 솔루션 프로세스가 논리적으로 엄격하지 않고, 단계가 불완전하며, 재조합 이벤트가 유전자형 비율에 미치는 영향을 올바르게 고려하지 않음; 기준 1 기준 점수 1.
점수:1/5
최종 답변(5점)::
기준 2에 따른 최종 답안; AI 어시스턴트의 최종 답안이 참조 답안과 일치하지 않고 오답임; 기준 2에 따른 점수 0점.
점수:0/5합산 점수 = (1 + 0) / 2 = 0.5종합해 보세요.AI조교 답변의 합산 점수 0.5 포인트.

[모델(해외 대형 모델 1) 답변]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

슈퍼 모델 채점::

이 답변은 다음과 같이 평가합니다:AI 어시스턴트의 답변은 문제를 푸는 데 어느 정도 논리가 있었지만, 핵심 확률 계산에 오류가 있어 최종 답변이 참고 답변과 일치하지 않았습니다. 유전학에서 재조합 빈도와 유전자형 확률 사이의 관계에 대한 이해와 적용을 강화할 필요가 있습니다.
솔루션 프로세스(5점)::
기준 1 기준, AI 어시스턴트의 해결 단계는 부분적으로 정확하며 재조합 빈도를 식별하고 유전자형 확률 계산을 시도할 수 있으나, 결합 재조합 확률과 최종 유전자형 확률 계산에 오류가 있어 부정확한 결과를 도출함(기준 1 점수 기준, 예: 3점)에 해당합니다.
점수:3/5
최종 답변(5점)::
기준 2의 기준; AI 어시스턴트가 제공한 최종 정답인 12.31%는 기준 정답인 38.25%와 일치하지 않으므로 0점으로 채점됩니다.
점수: 0/5합산 점수 = (3 + 0) / 2 = 1.50
종합해 보세요.AI조교 답변의 합산 점수 1.50 포인트.

# 예제 2 유기 화학

[질문]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

[참고 답변]: 0.082 ~ 0.093

[모델(국내 대형 모델 2) 답변]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

슈퍼 모델 채점::

이 답변은 다음과 같이 평가합니다:AI 어시스턴트가 용액 동안 수산화 이온의 농도가 일정하게 유지된다고 잘못 가정하여 참조 답과 일치하지 않는 최종 계산 결과를 도출했습니다. 이 솔루션은 2차 반응 역학 공식을 올바르게 적용하지 못하여 정답의 정확성에 영향을 미쳤습니다.
채점 및 평가가 시작됩니다:
솔루션 프로세스(5점)::
AI 어시스턴트의 솔루션은 논리적으로 엄격하지 않았으며, 불완전한 단계와 잘못된 솔루션을 사용했습니다. 1차 반응에 대한 2차 반응을 잘못 단순화했으며 2차 운동 공식을 올바르게 적용하지 않았습니다(예: 기준 1에 따른 점수, 1점).
점수: 1/5
최종 답변(5점)::
AI 어시스턴트가 제공한 최종 답안인 0.045M이 기준 답안 범위인 0.082~0.093M과 일치하지 않아 기준 2에 따른 점수(예: 0점)가 틀린 답안으로 처리됩니다.
점수: 0/5합산 점수 = (1 + 0) / 2 = 0.50
종합해 보세요.AI조교 답변의 합산 점수 0.50 포인트.

[모델(해외 대형 모델 2) 답변]:

슈퍼 모델 채점::

이 답변은 다음과 같이 평가합니다:AI 어시스턴트는 명확한 논리와 완전한 문제 해결 단계를 가지고 있으며 기본적으로 질문의 요구 사항을 충족하고 최종 답변이 정확합니다. 그러나 마지막 단계에서 값의 범위가 약간 부정확하게 표시되어 있으며 완전한 정확성을 보장하기 위해 계산의 세부 사항을 추가로 확인하는 것이 좋습니다.
채점 및 평가가 시작됩니다:
솔루션 프로세스(5점)::
AI 어시스턴트의 솔루션은 이차 핵친화성 치환 반응의 동역학 분석과 일치하는 완전하고 명확한 단계로 논리적이며 효과적이고 적절한 방법론을 사용합니다. 기준 1에 따른 점수, 4점.
점수: 4/5
최종 답변(5점)::
AI 어시스턴트가 제공한 최종 답안이 참조 답안 범위 내에 있고 문제의 요구 사항을 충족하며 정답입니다. 기준 2에 따른 점수, 5점.
점수: 5/5합산 점수 = ( 4 + 5 ) / 2 = 4.50
종합해 보세요.AI조교 답변의 종합 점수는 4점입니다.50 포인트.