この評価結果は学術研究のみに使用される。
10月22日、Anthropicはバージョンアップした大型モデル「Claude 3.5 Sonnet」と新モデル「Claude 3.5 Haiku」を正式に発表した。
Anthropicの関係者によると、クロード3.5ソネットは、あらゆる能力において前バージョンを上回っており、特にスマートボディのコーディングとツール使用タスクにおいて大幅な性能向上が見られたという。SWEベンチ検証では、エンコード性能が33.4%から49.0%に向上し、OpenAI o1-previewを含むすべての公開モデルを上回った。
Anthropicはまた、コンピュータの使用という画期的な新機能を導入している。開発者はAPIを介してクロードをコントロールし、人間と同じようにコンピュータを使用することができるが、この機能は現在実験段階である。
クロード3.5ソネットアップグレードの中国語シナリオにおける推論とコードのパフォーマンスに関する一般的な懸念に対応するため、プロの第三者評価機関であるSuperCLUEは、クロード3.5ソネットアップグレードの詳細な評価を実施しました。
アセスメント環境
参考基準:SuperCLUE-Reasoning中国語高次推論評価基準、SuperCLUE-Code3中国語コード評価基準。
評価モデル クロード3.5ソネット(1022、POE最新モデルスナップショット)
Model GenerationConfigの設定:
- クロード詳細説明書(https://www.anthropic.com/news/3-5-models-and-computer-use)をご参照ください。
レビュー・エピソード
1.SuperCLUE-推論中国語複合課題高次推論復習セット。多段階推理、数値推理、推理計算、市場分析、最適化問題5つの難問推理を含む全302問。
2.SuperCLUE-Code3中国語ネイティブコード評価セット.HumanEvalの中国語アップグレード版、合計195問、1,560のテストケースを含み、初級、中級、上級の3つの難易度に分かれています。
方法論::
1.高次推論:各推論問題に対して、手動校正・チェック後の参考解答と推論プロセスを提供し、レフェリーモデルが設定された評価プロセス、評価基準、採点ルール(1〜5点)に従って、候補モデルの解答を評価する。評価基準は、基本要件への適合性、推論の正確性、結論の妥当性です。
2.コードSC-Code3:特に、機能ユニットテストを通じてコード生成における中国ビッグモデルのコア機能を評価し、強化するために設計された。
SuperCLUE-Code3:中国語ネイティブレベル・コード能力ベンチマーク
結論から言おう。
結論 1: Claude 3.5 Sonnet (1022)は、中国語コード能力(SC-Code3)の点で良い結果を出している。 総合得点は84.85点に達し、GPT-4o-0513より1.52点高かった。 これはo1-previewより4.54ポイント低い。特に高度なコード・タスクでは、o1-previewと並ぶ69.23点を獲得し、素晴らしい結果を残した。
結論 2: クロード3.5ソネット(1022)は中国の高次推理課題で74.54点を獲得した。 ChatGPT-4o-latestに近く、o1-preview(-10.73ポイント)との差は大きい。 .その中でも、多段階推理能力は比較的優れており、ChatGPT-4o-latestを上回るパフォーマンスを持っています。
**結論3:**前バージョンのクロード3.5ソネット(0621)との比較。 クロード 3.5 ソネット (1022) 推論タスクで 4.57 ポイント向上 また、数的推理や計算推理といった二次的な課題においても大きな進歩を遂げた。
評価結果
比較分析
コード測定例
例1
プロンプト
より タイプ インポート リスト
デフ 最長ピークシーケンス(数である。 リスト[イント]) -> イント:
"""
整数の配列の中で最も長い「ピーク」列の長さを求める。
ピークを持つ」数列とは、厳密に増加し、その後厳密に減少するものであり、一意なピーク(すなわち最大値)を持つものである。
ピークを持つ」数列(すなわち、増加する部分と減少する部分の両方を含む数列)は、少なくとも3つの数から構成される。
配列中の最長の「ピーク」の長さを返す。ピーク」がない場合は 0 が返される。
例
>>> 最長ピーク配列([2, 1, 4, 7, 3, 2, 5])
5 # 最長の "ピーク "配列は[1, 4, 7, 3, 2]。
>> longest_peak_sequence([5, 4, 3, 2, 1])
0 # 厳密に増加する部分がないので、「ピーク」シーケンスは存在しない。
ヒント
- 配列 `nums` の長さは [0, 10000] の範囲である。
- 配列の各要素は [-10000, 10000] の範囲にある。
"""
クロード3.5ソネット(1022)の答え。
より タイプ インポート リスト
デフ 最長ピークシーケンス(もくすう: リスト[イント]) -> イント:
もし レン(もくすう) < 3:
戻る 0
最大長 = 0
# 2番目の要素から最後尾の要素まで繰り返す
にとって i で 範囲(1, レン(もくすう) - 1).
# 現在位置がピークであることを確認する。
もし もくすう[i] > もくすう[i-1] そして もくすう[i] > もくすう[i+1].
# ピークを見つける、両方向に展開する
左 = i - 1
右 = i + 1
# 左に展開して厳密に増加する数列を求める
同時に 左 > 0 そして もくすう[左-1] < もくすう[左]:
左 -= 1
# 右に展開し、厳密に減少する数列を探す
同時に 右 < レン(もくすう) - 1 そして もくすう[右+1] < もくすう[右]:
右 += 1
#最長ピーク配列長を更新
現在の長さ = 右 - 左 + 1
最大長 = マックス(最大長, 現在の長さ)
戻る 最大長
テストケース。
def check(candidate).
アサート 候補者( [1, 2, 3, 4, 5, 6])==0
アサート 候補者([1, 3, 5, 6, 4, 2, 0])==7
アサート 候補者( [5, 4, 3, 2, 1, 2, 3, 4, 1])==5
アサート 候補者([1, 3, 5, 3, 1])==5
アサート 候補者([1, 2, 3, 3, 2, 1])==0
アサート 候補者([2, 1, 3, 1, 2, 1, 3])==3
アサート 候補者([1, 3, 5, 4, 3, 2, 1])==7
if_passed**養子縁組の有無):***。採用された。
例2
プロンプト
より タイプ インポート リスト
デフ 最長増加パス(マトリックス リスト[リスト[イント]]) -> イント:
"""
整数の行列が与えられたとき、最も長い厳密に増加する経路の長さを求めよ。
経路は行列の任意のセルから始まると定義され、漸増的であれば、その都度上下左右に隣接するセルに移動できる。
パスの中で行列の外側に移動することはできないし、増分条件を満たさないセルに移動することもできない。
パスの長さはパスに含まれるセルの総数になる。
例
>>> longest_increasing_path([)
[2, 1, 1]
])
4 #最長の増加パスは [1, 2, 6, 9] です。
>>> 最長増加パスは[1, 2, 6, 9]である。
[3, 2, 6], [2, 2, 1]
[2, 2, 1]
])
4 # 最長の増加パスは[3, 4, 5, 6]または[2, 4, 5, 6]です。
ヒント
- 行列 `matrix` の次元は m x n である.
- 行列 `matrix` の各要素は非負整数である。
"""
クロード3.5ソネット(1022)の答え。
より タイプ インポート リスト
デフ 最長増加パス(マトリックス: リスト[リスト[イント]]) -> イント:
もし 違う マトリックス または 違う マトリックス[0]:
戻る 0
m, n = レン(マトリックス), レン(マトリックス[0])
各ロケーションの最長インクリメンタルパス長を格納するための#キャッシュ
キャッシュ = [[0] * n にとって _ で 範囲(m)]
デフ dfs(i: イント, j: イント) -> イント:
# すでに計算されている場合は、キャッシュされた結果を直接返します。
もし キャッシュ[i][j] != 0:
戻る キャッシュ[i][j]
# 上下左右の4方向
指示 = [(-1, 0), (1, 0), (0, -1), (0, 1)]
# 現在地までの最長パスは少なくとも1
最大長 = 1
# 4つの方向を横断する
にとって ディ, dj で 指示:
ニ, エヌジェー = i + ディ, j + dj
# マトリックス内にあり、インクリメント条件を満たすかどうかをチェックする
もし (0 <= ニ < m そして 0 <= エヌジェー < n そして
マトリックス[ニ][エヌジェー] > マトリックス[i][j]).
# 近隣の位置への最長パスの再帰的計算
curr_length = 1 + dfs(ニ, エヌジェー)
最大長 = マックス(最大長, curr_length)
#アクセス・キャッシュ
キャッシュ[i][j] = 最大長
戻る 最大長
# 行列の各位置をたどって最長経路を見つける
結果 = 0
にとって i で 範囲(m):
にとって j で 範囲(n):
結果 = マックス(結果, dfs(i, j))
戻る 結果
テストケース。
def check(candidate).
アサート 候補者([[1, 1], [1, 1]]) == 1
アサート 候補者([
[9, 9, 4],
[6, 6, 8],
[2, 1, 1]
]) == 4
アサート 候補者([
[3, 4, 5],
[3, 2, 6],
[2, 2, 1]
]) == 4
アサート 候補者([
[1, 2, 3, 4],
[5, 6, 7, 8],
[9, 10, 11, 12],
[13, 14, 15, 16]
]) == 7
アサート 候補者([
[-1, -2, -3, 0],
[5, -6, 7, -8],
[-9, 0, -11, -12],
[13, 0, 15, -16]
]) == 4
アサート 候補者([
[5, 10, 6, 7, 9],
[6, 10, 2, 2, 3],
[4, 9, 8, 2, 8],
[3, 3, 3, 8, 8]
])==4
アサート 候補者([
[1, 3, 1, 4],
[1, 5, 1, 7],
[4, 2, 1, 1],
[1, 3, 2, 1]
])==3
アサート 候補者([
[1, 9, 2, 4],
[9, 6, 5, 3],
])==4
if_passed(採用されたかどうか):採用された。
高次の推論の例
例1:多段階推論
尋ねる
ある会社には、A、B、C、D、E、F、Gという7人の従業員がいる。この会社は、従業員の等級付けを行い、その等級と以下の条件に基づいて、各従業員の正確な順位を推論した:
- AはBより高いが、Cより低い。
- DはEとGより高いが、Aより低い。
- Gは最低点だった。
- BはEとFより高いスコア。
- Fの方がEよりスコアが高い。
- Cが最高点。
- 各従業員によってスコアは異なり、Dが最も中央に位置する。
上記の条件に基づいて、各従業員の具体的なスコアを推測してください。
クロード3.5ソネット(1022)が答える:
各従業員の順位を論理的に分析してみよう:
- 条件3から判明:Gは最下位(7位)
- 条件6から判明:Cがトップ(1位)
- 条件7から判明:Dは4位(真ん中の位置)
- つまり、DはEとGより高く、Aより低い:
- EはDの次(5位か6位)にランクされなければならない。
- AはD(2位または3位)より前にランクされなければならない。
- 条件1から、AはBより高く、Cより低いことがわかる:
- A列2位
- Bは3位でなければならない
- 条件4と5から、BはEとFより高く、FはEより高いことがわかる:
- F組5位
- E 6位
最終順位は以下の通り:
- C(1位)
- A(2位)
- B(3位)
- D(4位)
- F(5位)
- E(6位)
- G(7位)
詳しい推理の過程をお見せしましょうか?
例2:最適化問題
尋ねる
ある都市には5つの主要な交通拠点があり、都市計画部門は、各拠点が少なくとも1つの路線で結ばれるように、バス路線のカバー範囲を最適化したいと考えている。ハブ間の建設コストは既知であり,最小コストですべてのハブを結ぶことが目的である.
データ
- ハブ間の接続コスト(単位:百万ドル)
- ハブ1とハブ2:10万ドル
- ハブ1とハブ3:15万ドル
- ハブ2とハブ4:20万ドル
- ハブ3およびハブ4:25万ドル
- ハブ3およびハブ5:30万ドル
- ハブ4とハブ5:180,000ドル
目的:総工費を最小限に抑え、すべてのハブを確実に相互接続するために、どのハブ同士を接続すべきかを特定する。
クロード3.5ソネット(1022)が答える:
これは最小スパニングツリーの問題で、クラスカルのアルゴリズムを使って解く。順を追って分析してみよう:
- まず、すべての接続をコストの小さいものから大きいものへとソートする:
- ハブ1-2:10万ドル
- ハブ1~3:15万ドル
- ハブ4-5:180,000ドル
- ハブ2~4:20万ドル
- ハブ3-4:25万ドル
- ハブ3~5:30万ドル
- リングの形成を避けるため、最も低コストの接続が選択される:
- セレクト・ハブ1-2(10万ドル)
- セレクト・ハブ1~3(15万ドル)
- セレクト・ハブ4-5(18万ドル)
- セレクト・ハブ2-4(20万ドル)
最適なプログラム
- ハブ1とハブ2の接続
- ハブ1とハブ3の接続
- ハブ4とハブ5の接続
- ハブ2とハブ4の接続
総費用:10+15+18+20=63万ドル
このプログラムは、以下のことを保証する:
- すべてのハブが接続されている
- ループが形成されない
- 最小の総所有コスト
この解決策を示すビジュアライゼーションを作成しましょうか?
# コミュニティに参加する
より詳細なクロード3.5最新大型モデルのレビューの詳細については、SuperCLUE-クロード交流グループに参加することができます。