Вышел обновленный Claude 3.5 Sonnet Chinese benchmark evaluation! Кодовые способности превышают GPT-4o, рассуждения высшего порядка не так хороши, как o1

Новости ИИОбновлено 10 месяцев назад Круг обмена ИИ
9.1K 00

Результаты этой оценки будут использованы только для академических исследований.

22 октября компания Anthropic официально представила обновленную большую модель Claude 3.5 Sonnet, а также новую модель Claude 3.5 Haiku.

 

По словам представителей Anthropic, Claude 3.5 Sonnet превосходит предыдущую версию по всем параметрам, причем значительный прирост производительности наблюдается, в частности, в задачах кодирования "умного тела" и использования инструментов.На SWE-bench Verified производительность кодирования повысилась с 33,41 TP3T до 49,01 TP3T, опередив все общедоступные модели, включая OpenAI o1-preview.

Anthropic также представляет новую революционную функцию: использование компьютера. Разработчики могут управлять Клодом, чтобы он пользовался компьютером так же, как и человек, через API, но пока эта функция находится на стадии эксперимента.

升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1

 

В ответ на обеспокоенность общественности по поводу производительности обновления Claude 3.5 Sonnet с точки зрения рассуждений и кода в китайских сценариях, SuperCLUE, профессиональная сторонняя организация по оценке, провела углубленную оценку обновления Claude 3.5 Sonnet.

среда оценки

Эталоны: SuperCLUE-Reasoning Chinese Higher Order Reasoning Assessment Benchmark, SuperCLUE-Code3 Chinese Code Assessment Benchmark.

Модели оценки : Claude 3.5 Sonnet (1022, POE последняя модель)

Конфигурация Model GenerationConfig:

  • См. документ с подробными инструкциями Claude: https://www.anthropic.com/news/3-5-models-and-computer-use.

Обзорный эпизод:

1.SuperCLUE-Reasoning Chinese Complex Tasks Higher Order Reasoning Review Set. Всего 302 вопроса, включая многоступенчатые рассуждения, числовые рассуждения, рассуждения-расчеты, анализ рынка и оптимизационные задачи, пять сложных задач на рассуждение.

2.Набор для оценки китайского родного кода SuperCLUE-Code3. Обновленная версия HumanEval на китайском языке, всего 195 вопросов, включая 1560 тестовых примеров, разделенных на начальную, среднюю и продвинутую три категории уровня сложности.

Методология::

1. рассуждения высшего порядка: для каждого вопроса мы предоставляем эталонные ответы и процессы рассуждений после ручной калибровки и проверки; затем судейская модель оценивает ответы моделей-кандидатов в соответствии с установленным процессом оценки, критериями оценки и правилами подсчета баллов (1-5 баллов). Установленные критерии оценки включают: соответствие основным требованиям, точность рассуждений и обоснованность выводов.

升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1

 

2. Code SC-Code3: специально разработан для оценки и расширения основных возможностей Китайской Большой Модели в генерации кода с помощью функционального модульного тестирования.

SuperCLUE-Code3: контрольные показатели уровня владения кодом для китайских аборигенов

升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1

 

Давайте начнем с выводов.

Вывод 1: Клод 3.5 Сонет (1022) демонстрирует хорошие результаты с точки зрения возможности использования китайского кода (SC-Code3). Общий балл достиг 84,85, что на 1,52 балла выше, чем у GPT-4o-0513. что на 4,54 балла ниже, чем у o1-preview. В частности, он показал потрясающие результаты в заданиях с расширенным кодом, набрав 69,23 балла, сравнявшись с o1-preview.

Заключение 2: Клод 3.5 Сонет (1022) набрал 74,54 балла в китайском задании "Рассуждения высшего порядка". Близко к ChatGPT-4o-latest, с большим отрывом от o1-preview (-10,73 балла) . Среди них можно выделить способность к многоступенчатому рассуждению, которая превосходит показатели ChatGPT-4o-latest.

**Вывод 3:** По сравнению с предыдущей версией Claude 3.5 Sonnet (0621). Клод 3.5 Сонет (1022) улучшил свои результаты на 4,57 балла в задании на рассуждение и значительный прогресс во вторичных заданиях, таких как числовые рассуждения и вычислительные рассуждения.

Результаты оценки

升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1

 

сравнительный анализ

升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1升级版Claude 3.5 Sonnet中文基准测评出炉!代码能力超GPT-4o,高阶推理不及o1

 

Пример измерения кода

Пример 1

Примета.

from typing import List


def longest_peak_sequence(nums: List[int]) -> int:
    """
    在一个整数数组中找出最长的"峰"序列的长度。
    所谓"峰"序列,是指先严格递增然后严格递减的序列,且峰顶(即最大值)唯一。
    至少包括三个数以上才能构成一个"峰"序列(即包含递增和递减的部分)。

    返回数组中最长"峰"序列的长度。如果没有"峰"序列,则返回0。


    示例:
    >>> longest_peak_sequence([2, 1, 4, 7, 3, 2, 5])
    5  # 最长的"峰"序列是 [1, 4, 7, 3, 2]


    >>> longest_peak_sequence([5, 4, 3, 2, 1])
    0  # 不存在"峰"序列,因为没有严格递增的部分

    提示:
    - 数组 `nums` 的长度范围为 [0, 10000]。
    - 数组中的每个元素范围为 [-10000, 10000]。
    """

Клод 3.5 Сонет (1022) Ответ.

from typing import List


def longest_peak_sequence(nums: List[int]) -> int:
    if len(nums) < 3:
        return 0

    max_length = 0

    # 从第二个元素遍历到倒数第二个元素
    for i in range(1, len(nums) - 1):
        # 检查当前位置是否是峰顶
        if nums[i] > nums[i-1] and nums[i] > nums[i+1]:
            # 找到一个峰顶,向两边扩展
            left = i - 1
            right = i + 1

            # 向左扩展,寻找严格递增序列
            while left > 0 and nums[left-1] < nums[left]:
                left -= 1

            # 向右扩展,寻找严格递减序列
            while right < len(nums) - 1 and nums[right+1] < nums[right]:
                right += 1

            # 更新最长峰序列长度
            current_length = right - left + 1
            max_length = max(max_length, current_length)

    return max_length

Тестовый пример.

def check(candidate):
    assert candidate( [1, 2, 3, 4, 5, 6])==0
    assert candidate([1, 3, 5, 6, 4, 2, 0])==7
    assert candidate( [5, 4, 3, 2, 1, 2, 3, 4, 1])==5
    assert candidate([1, 3, 5, 3, 1])==5
    assert candidate([1, 2, 3, 3, 2, 1])==0
    assert candidate([2, 1, 3, 1, 2, 1, 3])==3
    assert candidate([1, 3, 5, 4, 3, 2, 1])==7

if_passed**(усыновлен или нет):**Принято.

Пример 2

Примета.

from typing import List


def longest_increasing_path(matrix: List[List[int]]) -> int:
    """
    给定一个整数矩阵,找到最长严格递增路径的长度。
    路径被定义为从矩阵中的任意单元格开始,每次可以向上、下、左、右移动到相邻的单元格上,如果递增的话。
    你不能在路径中移动到矩阵外面,也不能移动到不满足递增条件的单元格上。
    路径的长度是路径上的单元格总数。

    示例:
    >>> longest_increasing_path([
            [9, 9, 4],
            [6, 6, 8],
            [2, 1, 1]
        ])
    4  # 最长递增路径是 [1, 2, 6, 9]


    >>> longest_increasing_path([
            [3, 4, 5],
            [3, 2, 6],
            [2, 2, 1]
        ])
    4  # 最长递增路径是 [3, 4, 5, 6]或 [2, 4, 5, 6]


    提示:
    - 矩阵 `matrix` 的维度为 m x n。
    - 矩阵 `matrix` 的每个元素是一个非负整数。


    """

Клод 3.5 Сонет (1022) Ответ.

from typing import List


def longest_increasing_path(matrix: List[List[int]]) -> int:
    if not matrix or not matrix[0]:
        return 0

    m, n = len(matrix), len(matrix[0])
    # 缓存,用于存储每个位置的最长递增路径长度
    cache = [[0] * n for _ in range(m)]

    def dfs(i: int, j: int) -> int:
        # 如果已经计算过,直接返回缓存结果
        if cache[i][j] != 0:
            return cache[i][j]

        # 四个方向:上、下、左、右
        directions = [(-1, 0), (1, 0), (0, -1), (0, 1)]

        # 当前位置的最长路径至少为1
        max_length = 1

        # 遍历四个方向
        for di, dj in directions:
            ni, nj = i + di, j + dj

            # 检查是否在矩阵范围内且满足递增条件
            if (0 <= ni < m and 0 <= nj < n and 
                matrix[ni][nj] > matrix[i][j]):
                # 递归计算邻居位置的最长路径
                curr_length = 1 + dfs(ni, nj)
                max_length = max(max_length, curr_length)

        # 存入缓存
        cache[i][j] = max_length
        return max_length

    # 遍历矩阵中的每个位置,找到最长路径
    result = 0
    for i in range(m):
        for j in range(n):
            result = max(result, dfs(i, j))

    return result

Тестовый пример.

def check(candidate):
    assert candidate([[1, 1], [1, 1]]) == 1
    assert candidate([
    [9, 9, 4],
    [6, 6, 8],
    [2, 1, 1]
]) == 4
    assert candidate([
    [3, 4, 5],
    [3, 2, 6],
    [2, 2, 1]
]) == 4
    assert candidate([
        [1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 10, 11, 12],
        [13, 14, 15, 16]
]) == 7
    assert candidate([
        [-1, -2, -3, 0],
        [5, -6, 7, -8],
        [-9, 0, -11, -12],
        [13, 0, 15, -16]
]) == 4
    assert candidate([
    [5, 10, 6, 7, 9],
    [6, 10, 2, 2, 3], 
    [4, 9, 8, 2, 8],
    [3, 3, 3, 8, 8]
])==4
    assert candidate([
    [1, 3, 1, 4],
    [1, 5, 1, 7],
    [4, 2, 1, 1],
    [1, 3, 2, 1]
])==3
    assert candidate([
    [1, 9, 2, 4], 
    [9, 6, 5, 3],
])==4

if_passed(Усыновленные или нет):Принято.

Примеры рассуждений более высокого порядка

Пример 1: Многоступенчатое рассуждение

спросите

В компании работают семь сотрудников по имени A, B, C, D, E, F и G. Компания провела аттестацию и на основе оценок сотрудников и следующих условий вывела точный рейтинг каждого сотрудника:

  1. Баллы A выше, чем B, но ниже, чем C.
  2. D оценивается выше, чем E и G, но ниже, чем A.
  3. G набрал меньше всего баллов.
  4. B оценивается выше, чем E и F.
  5. F оценивается выше, чем E.
  6. C набрал наибольшее количество баллов.
  7. Каждый сотрудник получает разную оценку, в самом центре находится D.

Пожалуйста, определите конкретный балл для каждого сотрудника, исходя из вышеперечисленных условий.

Клод 3.5 Сонет (1022) отвечает:

Давайте экстраполируем рейтинг каждого сотрудника с помощью логического анализа:

  1. Известно из условия 3: G находится на последнем месте (7)
  2. Известно из условия 6: C находится на вершине (1-е место)
  3. Известно из условия 7: D занимает 4-е место (средняя позиция)
  4. Из условия 2 мы знаем, что D выше, чем E и G, но ниже, чем A. Итак:
    • E должен занимать место после D (5-е или 6-е)
    • A должен занимать место перед D (2-е или 3-е)
  5. Из условия 1 мы знаем: A выше, чем B, но ниже, чем C. Объедините это с предыдущим анализом:
    • 2-е место в ряду A
    • B должен занять 3-е место
  6. Из условий 4 и 5 мы знаем: B выше, чем E и F, а F выше, чем E. Итак:
    • 5 место в ряду F
    • E 6 место

Итоговые рейтинги выглядят следующим образом:

  1. C (1-е место)
  2. A (2 место)
  3. B (3-е место)
  4. D (4)
  5. F (5)
  6. E (6)
  7. G (7)

Хотите, я покажу вам подробный процесс рассуждений?

Пример 2: Оптимизационная задача

спросите

В городе пять крупных транспортных узлов, и департамент городского планирования хочет оптимизировать покрытие автобусных маршрутов, чтобы каждый узел был связан хотя бы одним маршрутом. Стоимость строительства между узлами известна, и задача состоит в том, чтобы соединить все узлы при минимальных затратах.

Данные:

  • Расходы на связь между центрами (в млн. долл. США)
  • Узловой центр 1 и Узловой центр 2: $100 000
  • Узловой центр 1 и Узловой центр 3: $150,000
  • Узловой центр 2 и Узловой центр 4: 200 000 долл.
  • Узловой центр 3 и Узловой центр 4: 250 000 долл.
  • Узловой центр 3 и Узловой центр 5: 300 000 долл.
  • Хаб 4 и Хаб 5: $180 000

Цель: определить, какие узлы должны быть соединены друг с другом, чтобы минимизировать общую стоимость строительства и обеспечить соединение всех узлов.

Клод 3.5 Сонет (1022) отвечает:

Это задача о минимальном прячущемся дереве, которую я буду решать с помощью алгоритма Крускала. Давайте проанализируем ее шаг за шагом:

  1. Сначала отсортируйте все соединения от наименьшей до наибольшей стоимости:
    • Узел 1-2: $100 000
    • Узлы 1-3: $150,000
    • Втулка 4-5: $180 000
    • Узлы 2-4: $200 000
    • Узел 3-4: $250 000
    • Узловые центры 3-5: $300 000
  2. Чтобы избежать образования кольца, выбирается соединение с наименьшей стоимостью:
    • Выберите концентратор 1-2 ($100 000)
    • Выберите концентратор 1-3 ($150,000)
    • Select Hub 4-5 ($180 000)
    • Выберите концентратор 2-4 ($200 000)

Оптимальная программа:

  • Подключение концентратора 1 и концентратора 2
  • Подключение концентратора 1 и концентратора 3
  • Подключение концентратора 4 и концентратора 5
  • Подключение концентратора 2 и концентратора 4

Общая стоимость: 10 + 15 + 18 + 20 = $630 000

Эта программа обеспечивает:

  1. Все концентраторы подключены
  2. Петля не образуется
  3. Минимальная совокупная стоимость владения

Хотите, чтобы я создал для вас визуализацию этого решения?

# Присоединяйтесь к сообществу

Для более подробного обзора Клод 3.5 последней большой модели, вы можете присоединиться к группе обмена SuperCLUE-Клод.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...