Вышел первый список оценочных бенчмарков "AI Search"! Лидерство 4o невелико, а отечественные крупные модели демонстрируют блестящие результаты: в общей сложности 5 баз, 11 сценариев и 14 моделей.

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

57.8K 00

「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
Выпуск эталонной оценки китайской большой модели "ИИ-поиск" (SuperCLUE-AISearch) представляет собой углубленную оценку возможностей большой модели в сочетании с поиском. Оценка сосредоточена не только на базовых возможностях большой модели, но и на ее производительности в сценарных приложениях. Оценка охватывает 5 базовых возможностей, таких как поиск информации и получение актуальной информации, а также 11 сценарных приложений, таких как новости и приложения для жизни, чтобы всесторонне проверить эффективность модели в сочетании поиска в различных базовых возможностях и сценарных прикладных задачах. Схему оценки см. в разделе: "Выпуск схемы оценки бенчмарка "ИИ-поиск"". В этот раз мы оценили поисковые возможности 14 репрезентативных крупных моделей в стране и за рубежом, и ниже представлен подробный отчет об оценке.

Резюме оценки поиска с помощью искусственного интеллекта

Точка измерения 1: chatgpt-4o-latest возглавляет список поиска ИИ, за ним следует Kimi Explorer, между ними всего 0,71 балла В этой оценке chatgpt-4o-latest набрал 73,41 балла, показав отличную производительность, опередив другие модели-участницы. Между тем, крупная отечественная модель Кими Заслуживает внимания и производительность Explorer Edition: в сценарном приложении она показала отличные результаты по темам шопинга и культуры, продемонстрировав превосходные возможности поиска с помощью искусственного интеллекта, а также отличную комплексную производительность по нескольким параметрам.
Точка измерения 2: Общая производительность отечественных больших моделей довольно впечатляющая, превосходящая некоторые международные аналоги По результатам оценки, отечественные большие модели, такие как Secret Tower AI Search (режим исследования), Wisdom Spectrum Clear Speech AI Search и Conch AI, более впечатляющие в плане общей производительности, наравне с зарубежной большой моделью Gemini-1.5-Pro-Search. Кроме того, производительность нескольких отечественных крупных моделей в середине общей производительности, таких как 360AI Search (глубокий ответ), Wen XiaoYin, Tongyi QianQi (глубокий поиск) и другие крупные модели не похожи друг на друга, демонстрируя небольшую разницу.
Точка измерения 3: Модели демонстрируют разную степень производительности в различных сценарных приложениях. При оценке поиска ИИ мы также сосредоточились на производительности каждой большой модели в различных сценариях применения. Отечественные большие модели показали относительно хорошие результаты в таких сценариях, как наука и техника, культура, бизнес и развлечения, продемонстрировав отличные возможности поиска и интеграции информации, а также своевременность ее получения. Однако отечественным большим моделям еще есть куда совершенствоваться в таких сценарных приложениях, как акции и спорт.

Обзор списка

「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型

Введение в SuperCLUE-AISearch

SuperCLUE-AISearch - это комплексная оценка китайских моделей поиска ИИ, цель которой - предоставить эталон для оценки возможностей моделей поиска ИИ в китайской области.
「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
Основополагающие возможности включают в себя пять возможностей, необходимых для решения поисковых задач ИИ: междоменная релевантность, поиск информации, семантическое понимание, получение актуальной информации и рассуждение.

Сценарные приложения включают 11 сценариев, характерных для задач поиска ИИ: погода, акции, путешествия, новости, покупки, спорт, развлечения, образование, путешествия, бизнес, культура, технологии, здравоохранение и жизнь.

Методология

Ссылаясь на подход SuperCLUE к тонкой оценке, создается специальный набор измерений, каждое измерение оценивается на тонком уровне, и может быть предоставлена подробная информация об обратной связи.

1) Построение измерительного комплекта

Процесс создания китайских подсказок: 1. Ссылка на существующую подсказку ---> 2. Написание китайской подсказки ---> 3. Тестирование ---> 4. Модификация и доработка китайской подсказки; создание специального набора оценок для каждого измерения.

2) Метод подсчета баллов

Процесс оценки начинается с взаимодействия модели с набором данных, который необходимо понять и ответить на поставленные вопросы.
Критерии оценки охватывают такие аспекты, как процесс мышления, процесс решения проблем, рефлексия и корректировка.
Правила подсчета баллов сочетают в себе автоматизированную количественную оценку с экспертной оценкой, что позволяет эффективно оценивать результаты, обеспечивая при этом научность и справедливость оценки.

3) Критерии оценки

Для оценки качества ответа каждой макромодели на задания по оценке мы использовали два критерия оценки для субъективных и объективных вопросов в оценочном наборе соответственно. Этим критериям были присвоены разные веса, чтобы полностью отразить производительность макромоделей в задаче поиска ИИ.

Система оценки SuperCLUE-AISearch предназначена для оценки субъективных вопросов в 5 баллов, которые оцениваются по таким параметрам, как полезность информации, точность анализа и ясность выражения, из которых полезность информации составляет 60%, точность анализа - 20%, а ясность выражения - 20%. Критерии оценки объективных вопросов оцениваются в 5 баллов, которые оцениваются по таким параметрам, как точность информации и ясность выражения, из которых точность информации составляет 80%, а ясность выражения - 20%. Объективные вопросы оцениваются в 5 баллов по двум параметрам: точность информации и ясность выражения, из которых точность информации приходится на 80%, а ясность выражения - на 20%. 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
Пример оценки

Проверочное слово Просьба: когда и где был запущен пилотируемый космический корабль "Шэньчжоу-19" и кто был его космонавтами?

Ответ: Ранним утром 30 октября запуск пилотируемого космического корабля "Шэньчжоу-19" с космодрома Цзюцюань прошел успешно. Экипаж пилотируемого корабля "Шэньчжоу-19" состоял из трех астронавтов: Цай Сючжэ, Сун Линьдун и Ван Хайзэ.

Модель ответа:
「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型

Супермодель (chatgpt-4o-latest) рефери:

Оцените этот ответ следующим образом:
В ответе ИИ-помощника были точно указаны время и место запуска пилотируемого космического корабля "Шэньчжоу XIX" и список астронавтов. Однако в ответе не были указаны основные цели и содержание миссии, что не позволило полностью удовлетворить потребность пользователя в подробной информации о миссии. Кроме того, раздел, посвященный личным профилям астронавтов, хотя и был подробным, но, возможно, выходил за рамки компетенции пользователей. Поэтому предлагается добавить в ответ краткое описание целей и основных задач миссии, чтобы более полно удовлетворить потребности пользователей.1. Полезность информации (5 баллов):
ИИ-помощник предоставил время запуска, местоположение и список астронавтов корабля Shenzhou XIX, удовлетворив потребность пользователя в такой базовой информации. Однако основные цели миссии и ее содержание не были упомянуты, что не позволило полностью удовлетворить потребность пользователя в подробной информации о миссии. Поэтому оценка полезности информации составила 4 балла.
Оценка: 4/52. Точность анализа (5 баллов):
ИИ-помощник точно извлек из вопроса пользователя ключевую информацию, такую как время запуска, местоположение и список астронавтов, и предоставил подробный личный профиль. Однако он не ответил на вопросы о целях и основном содержании миссии и не смог полностью удовлетворить потребности пользователя. Поэтому оценка точности анализа составила 4 балла.
Оценка: 4/53. ясность изложения (5 баллов):
Ответы ИИ-помощника четко структурированы, информация хорошо организована и легко воспринимается. Раздел личного профиля подробен, что позволяет пользователям легко понять биографию астронавта. Поэтому ясность изложения оценивается в 5 баллов.
Оценка: 5/5 Композитный балл = 4*0,6 + 4*0,2 + 5*0,2 = 4,2 Объединив все вышеперечисленное, композитный балл за ответ ИИ-ассистента составляет 4,2. (из 5 баллов)

Модели-участники

Чтобы всесторонне оценить текущий уровень развития отечественных и зарубежных крупных моделей в области возможностей поиска ИИ, для этой оценки были отобраны 4 зарубежные модели и 10 отечественных репрезентативных моделей.

Учитывая тот факт, что многие крупномасштабные модели в стране и за рубежом обычно имеют две или более версии, включая обычную версию и версию для углубленного поиска, в процессе выбора модели мы используем единый критерий: если модель оснащена версией для углубленного поиска или анализа, мы выбираем версию с наиболее сильными возможностями поиска для всесторонней оценки. 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型

Результаты оценки

общий список 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型

Список основных возможностей

Список сценарных приложений

「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
Список субъективных вопросов

Список объективных вопросов

Пример сравнения моделей

Пример 1 Базовые навыки - умение рассуждать и анализировать

Задание: "Почему используется структура модели GPT-1? Трансформатор Вместо LSTM?"

Сравнение ответов моделей (из 5):
[Kimi Explorer]: 4 очка 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
[chatgpt-4o-latest]: 3,9 балла
[Skyworks AI Search (Advanced Mode)]: 3,4 балла

Пример 2 Базовые компетенции - сквозные связи

ЗаданиеПросьба: "Пожалуйста, помогите мне выяснить, каковы все области применения технологии компьютерного зрения в сельском хозяйстве, выберите 3 из них и кратко опишите каждую".

Сравнение ответов моделей (из 5):

[Поиск ИИ секретной башни (режим исследования)]: 4 балла 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
[Вэнь Сяоянь]: 3,4 балла
[Поиск ИИ Старфайра]: 3 очка

Пример 3 Применение сценария - акции

Задание: "Пожалуйста, расскажите мне о нескольких важных бычьих рынках акций A-shares за последние годы и связанных с ними данных (например, время начала, продолжительность, темпы роста, самые высокие и самые низкие точки и т. д.)". Сравнение ответов моделей (из 5 баллов): [Gemini-1.5-Pro-Search]: 3,2 балла 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
[Smart Spectrum Clear Speech AI Search]: 3,3 балла
Bing Search]: 2,6 балла
Пример 4 Применение сцены - жизнь

Задание: "С января по октябрь этого года производство и продажи автомобилей в Китае достигли скольких миллионов единиц соответственно, и на сколько процентов они увеличились по сравнению с аналогичным периодом прошлого года?"

Сравнение ответов моделей (из 5):

[Тысяча вопросов Тонги (глубокий поиск)]: 4,2 балла 「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
[360AI поиск (углубленный ответ)]: 3,8 балла

Оценка согласованности действий человека

Чтобы убедиться в научной обоснованности автоматизированной оценки больших моделей, мы оценили согласованность GPT-4o-0513 с человеком в задаче оценки поиска ИИ.

Конкретный метод работы заключается в следующем: выбираются пять моделей, и каждая модель независимо оценивается одним человеком, соответственно, по различным измерениям субъективных и объективных вопросов, а затем взвешивается для усреднения в соответствии с критериями оценки. Мы вычисляем разницу между оценками человека и оценками модели по каждому вопросу, а затем суммируем и усредняем, чтобы получить средний разрыв по каждому вопросу в качестве результата оценки согласованности действий человека.

Итоговые средние результаты были следующими: Средний результат отклонений составил (в процентах): 5,1 балла

Благодаря высокой надежности этой автоматизированной оценки.

Анализ оценки и заключение

1.AI поиск всеобъемлющей способности, chatgpt-4o-последние держать ведущие.

Как видно из результатов оценки, chatgpt-4o-latest (73,41 балла) обладает отличными общими характеристиками и лидирует в бенчмарке SuperCLUE-AISearch. Он всего на 0,71 балла превосходит лучшую отечественную модель, Kimi Explorer.
「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
2. общая производительность больших бытовых моделей весьма впечатляет, при этом различия между моделями относительно невелики

Судя по результатам оценки, отечественные модели, такие как Secret Tower AI Search (исследовательская модель), Wisdom Spectrum Clear Speech AI Search и Conch AI, демонстрируют относительно хорошие результаты с точки зрения базовых возможностей, и имеют импульс догнать зарубежную крупную модель Gemini-1.5-Pro-Search. В целом, производительность нескольких отечественных моделей в середине общих результатов, таких как Conch AI, Wen Xiaoyin и Tongyi Qianqian (глубокий поиск), несопоставима между моделями, показывая небольшую разницу.
「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
3. модель демонстрирует различные уровни производительности в различных сценариях применения.

При изучении поиска ИИ мы сосредоточились на производительности моделей в различных сценариях применения. Отечественная большая модель хорошо работает в сценариях науки и техники, культуры, бизнеса и развлечений, точно оценивает своевременность информации и демонстрирует хорошие способности к извлечению и интеграции информации. Однако в сценариях, связанных с акциями и спортом, отечественным большим моделям еще есть куда расти.

Например, в процессе поиска ИИ модель должна точно разобрать поисковые потребности пользователя, найти правильные релевантные веб-страницы с точной информацией о времени и, наконец, интегрировать информацию, чтобы сформировать копию результатов ответа, полезного для пользователя. Согласно текущим наблюдениям, отечественные большие модели иногда не могут точно проанализировать поисковые потребности, а иногда обращаются к нерелевантному веб-контенту в процессе интеграции информации, что приводит к низкой производительности отечественных больших моделей в определенных сценариях.