AIパーソナル・ラーニング
と実践的なガイダンス

「中国科学的推論のベンチマーク評価(SuperCLUE-Science)プログラム開始

AI技術の急速な発展に伴い、大学院レベルの難しい科学的トピックを推論する大規模言語モデルの能力が、研究のホットトピックとなっている。OpenAIを例にとると、12月上旬に正式にリリースされた新モデルOpenAI o1は、その強力な推論能力を示している。科学的推論物理学、化学、生物学の大学院レベルの専門知識をテストするためのベンチマークであるGPQA-Diamondで、o1は驚くべき好成績を収め、人間の博士号レベルに匹敵する能力を示した。


この分野における大規模モデルの性能をより効果的に評価するため、特に中国において優れた科学的推論能力を持つ大規模モデルが多数出現していることを考慮し、我々はSuperCLUE中国総合ベンチマークの蓄積に基づき、SuperCLUE中国総合ベンチマークを開始した。科学的推論においてSuperCLUE-Science(読み書き能力のベンチマーク評価).このベンチマークは、主に中国の大型モデルを評価することに重点を置いている。大学院レベルの科学問題将来のモデル開発において、より的を絞ったリファレンスを提供することを目的としている。

 

SuperCLUE-サイエンス評価システム

注:具体的な評価システムは、正式に発表される評価報告書に従う。

 

1.特徴

(1)包括性

ベンチマークは、幅広い知識領域と複雑さをカバーし、物理、化学、生物の3つのカテゴリーの副教科のサブドメインについて詳細に開発されており、中国のビッグモデルの科学的推論の能力を総合的に評価することを保証しています。

(2) 目的形容詞から名詞を形成する接尾辞。

科学的推論ベンチマーク評価では、科学的問題の客観性を重視します。これは、客観的で解答可能な、よく設計された質問と答えのペアの形で評価セットを構成することによって保証されます。評価プロセスでは、ビッグモデルによって出された答えの正確さに特別な注意を払います。

(3) 課題形容詞から名詞を形成する接尾辞。

複雑なシナリオや難解な科学的問題に対するモデルのパフォーマンスを測定するために、問題によってカバーされる知識の幅と、問題に対して要求される推論の深さの両面から、大学院レベルの難解な科学的問題を導入した。

 

2. 評価ミッション

ビッグモデルの科学的推論能力を大学院レベルでより効果的に評価するために、物理学、化学、生物学の3分野のトピックを測定し、異なる科学領域を包括的にカバーするために、それぞれの分野の下にある副次的なサブドメインを詳細に拡張した。副次的なサブドメインは以下のように表示されます:

  • 理学療法量子力学、高エネルギー素粒子物理学、一般物理学、天体物理学、電磁気学およびフォトニクス、相対論的力学、統計力学、物性物理学、光学および音響学
  • 化学療法有機化学、一般化学、無機化学、分析化学、物理化学
  • 生物分子生物学、遺伝学

次に、いくつかのカテゴリーを簡単に紹介し、対応する例を示す。

2.1 量子力学

量子力学は、ミクロの世界における粒子のエキゾチックな振る舞いを探求する物理学の最先端分野である。この分野には波動-粒子二重性、量子の重ね合わせ、エンタングルメントといった概念が含まれ、不確定性原理と量子状態の発展についての深い理解が必要とされる。量子物理学は、従来の物理学の概念に挑戦するだけでなく、量子コンピューティングや量子通信などの技術開発を促進し、科学的探求と技術革新の重要な分野となっている。

2.2 高エネルギー粒子物理学

高エネルギー素粒子物理学は、宇宙で最も基本的な粒子とその相互作用を研究する学問である。この分野には加速器技術、粒子検出器、データ解析が含まれ、物質の基本的な組成と宇宙の起源を明らかにすることを目指している。大型ハドロン衝突型加速器(LHC)のような高エネルギー素粒子物理学実験は、精密な測定と複雑なデータ解析を必要とするため、科学的発見の最先端に位置し、厳格な科学的態度と学際的コラボレーションを育んでいる。

2.3 有機化学

有機化学とは、炭素を含む化合物の構造、性質、合成法を研究する学問である。この分野は、炭素原子の4価の結合特性、立体化学、反応機構を扱い、天然物や合成ポリマーの謎を探求する。有機化学は、医薬品開発や材料科学の理論的基礎を充実させるだけでなく、構造解析や合成設計の能力を開発し、化学分野の中でも創造性の高い分野となっている。

2.4 物理化学

物理化学は化学と物理学の交差点に位置する学際的な分野で、化学現象の物理的基礎を研究する。この分野は、熱力学、量子化学、電気化学、動力学などをカバーし、化学反応の性質を説明するために物理法則を応用している。物理化学は、化学結合や反応速度の理解を深めるだけでなく、触媒作用や分光学などの技術開発を促進し、理論と実験の架け橋となる。

2.5 遺伝学

遺伝学とは、生物における遺伝情報の伝達パターンや変異を研究する学問である。この分野は遺伝子構造、遺伝子組み換え、エピジェネティクス、集団遺伝学を含み、生物多様性の起源と進化を明らかにする。遺伝学は、医学における遺伝病の診断と治療の理論的基礎を提供するだけでなく、農業育種や生態系保全の発展を促進し、生命科学の中核をなす分野である。例

2.6 分子生物学

分子生物学は、生体高分子の構造と機能を研究する科学である。DNAの複製、転写と翻訳、タンパク質の折り畳みと相互作用をカバーし、生命活動の分子メカニズムを明らかにする分野である。分子生物学は、遺伝子発現制御の理解を深めるだけでなく、遺伝子編集やバイオインフォマティクスなどの新分野の発展を促し、生命科学における生命の謎を探る重要なツールとなっている。例

 

3.測定方法と評価の例

採点方法とアイデア

1.採点方法のアイデアチームワークSuperCLUE-CoT「連鎖推論」評価ベンチマークの採点方法を参考に、各次元を評価し、詳細なフィードバックを提供するための専用評価セットを構築。

2.計測セット構成

科学的推論のための中国語問題集を構築するプロセス:1.化学、物理学、生物学の大学院レベルの専門知識を収集し、整理する ---> 2.中国語の科学的推論問題を書く ---> 3.テスト ---> 4.科学的推論のための中国語問題集を改訂し、最終化する。

3.採点基準

評価プロセス全体は、いくつかの重要な段階に分けられた。まず、入力データの正確性と完全性を確保するために、問題集の資料が準備された。次に、ビッグモデルへの解答が詳細な評価基準に基づいて分析された。最後に、厳格な採点ルールが適用され、ビッグモデルに対する解答が採点される。このプロセスにより手動校正客観的評価のための参考解答を掲載する。

評価基準は、科学的推論を検証するための2つの重要な側面をカバーしている。問題解決のプロセス歌で応える最終回答これは、大学院レベルの難易度の科学問題に対するモデルの推論能力を総合的に評価するものである。

採点ルールは定量的なもので、評価プロセスの科学的かつ公正な性質を確保することを目的としている。また、最新の自動採点システムを導入することで、手作業を大幅に減らし、審査の効率性と一貫性をさらに高めている。

各次元の評価基準は、評価タスクの中で明確に定義されます。評価プロセス、評価基準、および採点ルールを組み合わせることにより、質問は評価のためにビッグモデルに入力され、最終的に各次元の評価結果が得られます。この体系的なアプローチは、評価の精度を高めるだけでなく、ビッグモデルの改善のための強力なデータサポートを提供します。

4.評価基準

評価タスクにおける各マクロモデルの応答品質の評価については、2つの評価基準を採用している。

科学的推論問題の評価システムでは、中核となるルーブリックは主に次の点に焦点を当てます。「ファイナルアンサーの精度と正確さである。「問題解決のプロセス考察における推論ステップの厳密さ。ビッグ・ランゲージ・モデルが使用されるシナリオを考慮し、私たちは科学的推論の特定のタイプの質問に対して、そのユニークな課題に合うように深くパーソナライズし、最適化しました。

科学的推論の問題は、従来の理科の問題とは異なり、大学院レベルの学問的な深さに触れ、幅広い知識をカバーするだけでなく、論理的な推論がより複雑になり、解答者に従来の思考様式から脱却し、革新的な思考ストラテジーを採用することを強いる。したがって、このような問題を評価する際には、最終的な解答の正確さを厳しく管理するだけでなく、問題を解く過程における推論の論理の明晰さと合理性を非常に重視し、解答者の科学的推論能力を総合的かつ深く測定するように努めています。

これら2つの評価基準により、測定タスクにおける各ビッグモデルのパフォーマンスを包括的かつ客観的に評価し、さらなる改善と最適化のための貴重なフィードバックを提供できることを期待している。

評価例

私たちは、用意した質問に答えるために、国内外のさまざまな大型モデルを使用した。 o1 ビッグ・モデルに対する回答の自動評価。以下は、それぞれ2つの異なる分野のサブドメインに対する評価の例である:

例1 遺伝学

[質問】:]

[参考出品】:38.25%

[モデル(国内大型1号機)回答】:] スーパーモデルの採点::

この答えを次のように評価する:質問と改善へのフィードバック:AIアシスタントは問題を解く際に論理的でなく、配偶子に対する組換え頻度の影響を適切に考慮しなかったため、最終的に不正解となりました。解答ステップは完全でなく、十分に明確ではありませんでした。

  1. 問題解決のプロセス5点::

基準1に基づく解法プロセス;AIアシスタントの解法プロセスは論理的に厳密ではなく、不完全なステップがあり、遺伝子型の割合に対する組換え事象の影響を正しく考慮していない。

スコア1/5

  1. 最終回答5点::

基準2に基づく最終解答。AIアシスタントの最終解答が参考解答と一致せず、不正解。基準2に基づく採点は0点。

スコア0/5合計スコア = ( 1 + 0 ) / 2 = 0.5一緒に考えてみよう。AIアシスタントの回答の合計点 0.5 点だ。

[モデル(海外大型モデル1)回答】:]

スーパーモデルの採点::

この答えを次のように評価する:AIアシスタントの解答は、ある程度論理的に問題を解いていたが、肝心の確率計算に誤りがあり、最終的に参考解答と一致しない解答になっていた。遺伝学における組換え頻度と遺伝子型確率の関係の理解と応用を強化する必要がある。

  1. 解決プロセス(5点)::

基準1<解決プロセス>に基づく;AIアシスタントの解決ステップは部分的に正しく、組換え頻度を特定でき、配偶子のタイプの確率を計算しようとしているが、組換え確率と最終的な遺伝子型の確率の組み合わせの計算に誤りがあり、不正確な結果をもたらしている;基準1の得点に基づく、例えば3点。

スコア3/5

  1. 最終回答(5点)::

基準2の<最終回答>に基づき、AIアシスタントが提供した最終回答12.31%は、基準回答38.25%と一致しないため、0点と採点されます。

スコア:0/5総合得点 = ( 3 + 0 ) / 2 = 1.50

一緒に考えてみよう。AIアシスタントの回答の合計点 1.50 点だ。

# 例題2 有機化学

[質問】:]

[参考回答】:0.082~0.093

[モデル(国内大型2号機)回答】:]

スーパーモデルの採点::

この答えを次のように評価する:AIアシスタントは、水酸基イオンの濃度が溶液中で一定であると誤って仮定したため、最終的な計算が参考解答と一致しませんでした。解答は二次反応速度論の公式を正しく適用できず、解答の正確さに影響します。

採点と評価が始まる:

  1. 解決プロセス(5点)::

AI アシスタントの解答は論理的に厳密ではなく、不完全なステップや無効な解答があった。二次反応を一次反応に誤って単純化し、二次反応速度式を正しく適用しなかった。

スコア:1/5

  1. 最終回答(5点)::

AIアシスタントが提供した最終的な答え、0.045 Mは、基準となる答えの範囲、0.082 ~ 0.093 Mと一致しません。

スコア:0/5合計スコア = ( 1 + 0 ) / 2 = 0.50

一緒に考えてみよう。AIアシスタントの回答の合計点 0.50 点だ。

[モデル(海外大型2種)回答】:]

「中国科学的推論のベンチマーク評価(SuperCLUE-Science)プログラム発表-1

スーパーモデルの採点::

この答えを次のように評価する:AIアシスタントは明確なロジックと問題を解くための完全なステップを持っており、基本的に質問の要件を満たしており、最終的な答えは正確です。しかし、最終ステップでの値の範囲の提示に若干の不正確さがあり、完全な正確さを保証するために計算の詳細をさらに確認することが推奨されます。

採点と評価が始まる:

  1. 解決プロセス(5点)::

AIアシスタントの解答は論理的で、完全で明確なステップを持ち、二次求核置換反応の速度論的解析と一致しており、効果的で適切な方法論を用いている。基準1に基づく得点、4点。

スコア:4/5

  1. 最終回答(5点)::

AIアシスタントが提供した最終的な回答は、参考回答の範囲内であり、質問の要件を満たしており、正解である。基準2に基づく得点、5点。

スコア:5/5合計スコア = ( 4 + 5 ) / 2 = 4.50

一緒に考えてみよう。AIアシスタントの答えは総合4点。50 点だ。

 

評価への招待

タイムプランニング

1.登録開始:1月2日

2.参加者評価モデルの確認:1月10日

3.測定実施と結果統計:1月10日~15日

4.評価結果の発表:1月16日評価プロセス

1.メール申込

2.意思の伝達

3.参加確認と同意のプロセス

4.モデルAPIとドキュメントの提供

5.評価報告書の入手

審査申し込みメールタイトル:SuperCLUE-Science中国語科学推理評価アプリケーション、发送contact@superclue.ai请使用单位邮箱、メール内容:ユニット情報、大型モデルプロフィール、担当者及び部署、連絡先。

無断転載を禁じます:チーフAIシェアリングサークル " 「中国科学的推論のベンチマーク評価(SuperCLUE-Science)プログラム開始

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語