Запущена программа "Китайская контрольная оценка научного мышления" (SuperCLUE-Science)

Новости ИИОпубликовано 8 месяцев назад Круг обмена ИИ
6.6K 00
「科学推理」中文基准测评(SuperCLUE-Science)方案发布

С быстрым развитием технологий искусственного интеллекта способность больших языковых моделей рассуждать на сложные научные темы на уровне выпускников стала актуальной темой для исследований. Если взять в качестве примера OpenAI, то ее новая модель OpenAI o1, официально выпущенная в начале декабря, демонстрирует сильныенаучное обоснованиеo1 показал потрясающие результаты в GPQA-Diamond, эталоне для проверки знаний выпускников в области физики, химии и биологии, продемонстрировав способности, сопоставимые с уровнем кандидата наук.

Чтобы более эффективно оценивать производительность больших моделей в этой области, особенно учитывая, что в Китае появляется большое количество больших моделей с отличными возможностями научного обоснования, мы запустили китайский комплексный эталон SuperCLUE, основанный на накопленииВ научном обоснованииSuperCLUE-Science (контрольная оценка грамотности). Данный бенчмарк в основном ориентирован на оценку китайских крупных моделей вВопросы по естественным наукам для аспирантовв работе модели, чтобы обеспечить более целенаправленный ориентир для будущего развития модели.

 

SuperCLUE-Scienceсистема оценки

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Примечание: конкретная система оценки зависит от официально опубликованного отчета об оценке.

 

1. Характеристики

(1)полнота

Контрольные показатели охватывают широкий диапазон областей знаний и сложности, а также подробно разработаны для подобластей средних предметов в трех категориях: физика, химия и биология, чтобы обеспечить всестороннюю оценку способности китайской Большой модели к научным рассуждениям.

(2) ЦельСуффикс, образующий существительное от прилагательного, соответствующий -ness или -ity

В контрольной работе по оценке научного мышления большое значение придается объективности научных вопросов, что обеспечивается построением оценочного комплекта в виде хорошо продуманных пар "вопрос-ответ", которые являются объективными и решаемыми. В процессе оценки мы уделяем особое внимание точности ответов на вопросы Большой модели.

(3) ВызовыСуффикс, образующий существительное от прилагательного, соответствующий -ness или -ity

Чтобы оценить эффективность модели при работе со сложными сценариями и трудными научными вопросами, мы представили сложные научные вопросы для аспирантов с точки зрения как широты знаний, охватываемых вопросами, так и глубины рассуждений, требуемых для их решения.

 

2. миссия оценки

Для того чтобы более эффективно оценить способность Большой модели рассуждать научно на уровне выпускника, мы измерили темы по трем дисциплинам - физике, химии и биологии - и детально расширили вторичные поддомены в рамках соответствующих дисциплин, чтобы обеспечить полный охват различных научных областей. Вторичные поддомены представлены ниже:

  • физиотерапия: квантовая механика, физика частиц высоких энергий, общая физика, астрофизика, электромагнетизм и фотоника, релятивистская механика, статистическая механика, физика конденсированного состояния вещества, оптика и акустика
  • химиотерапия: Органическая химия, общая химия, неорганическая химия, аналитическая химия, физическая химия
  • организмыМолекулярная биология, генетика

Далее мы кратко представим некоторые из категорий и покажем соответствующие примеры.

2.1 Квантовая механика

Квантовая механика - это передовая область физики, изучающая экзотическое поведение частиц в микроскопическом мире. Эта область включает в себя такие понятия, как дуализм волна-частица, квантовая суперпозиция и запутанность, и требует глубокого понимания принципа неопределенности и эволюции квантовых состояний. Квантовая физика не только бросает вызов традиционным представлениям о физике, но и способствует развитию таких технологий, как квантовые вычисления и квантовая связь, что делает ее ключевой областью для научных исследований и технологических инноваций.

Пример:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.2 Физика энергичных частиц

Физика высокоэнергетических частиц - это изучение самых фундаментальных частиц во Вселенной и их взаимодействий. Эта область включает в себя ускорители, детекторы частиц и анализ данных и направлена на раскрытие фундаментального состава материи и происхождения Вселенной. Эксперименты по физике высокоэнергетических частиц, такие как Большой адронный коллайдер (БАК), находятся на переднем крае научных открытий, требуя точных измерений и сложного анализа данных, а также поощряя строгий научный подход и междисциплинарное сотрудничество.

Пример:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.3 Органическая химия

Органическая химия - это наука о структуре, свойствах и методах синтеза углеродсодержащих соединений. Эта область занимается изучением свойств четырехвалентных связей атомов углерода, стереохимией и механизмами реакций, а также исследует тайны природных продуктов и синтетических полимеров. Органическая химия не только обогащает теоретическую базу для разработки лекарств и материаловедения, но и развивает способность анализировать структуры и разрабатывать синтезы, что делает ее очень творческой частью области химии.

Пример:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.4 Физическая химия

Физическая химия - это междисциплинарная область на стыке химии и физики, изучающая физические основы химических явлений. Область охватывает термодинамику, квантовую химию, электрохимию и кинетику и применяет законы физики для объяснения природы химических реакций. Физическая химия не только углубляет понимание химической связи и скорости реакций, но и способствует развитию катализа, спектроскопии и других технологий, а также является связующим звеном между теорией и экспериментом.

Пример:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.5 Генетика

Генетика - это изучение закономерностей передачи генетической информации и вариаций в живых организмах. Эта область включает в себя структуру генов, генетическую рекомбинацию, эпигенетику и популяционную генетику, а также раскрывает происхождение и эволюцию биологического разнообразия. Генетика не только обеспечивает теоретическую основу для диагностики и лечения генетических заболеваний в медицине, но и способствует развитию сельскохозяйственной селекции и сохранению окружающей среды, а также является одной из основных областей наук о жизни. Пример:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

2.6 Молекулярная биология

Молекулярная биология - это наука, изучающая структуру и функции биологических макромолекул. Эта область охватывает репликацию ДНК, транскрипцию и трансляцию, сворачивание и взаимодействие белков, а также раскрывает молекулярные механизмы жизнедеятельности. Молекулярная биология не только углубляет понимание регуляции экспрессии генов, но и способствует развитию таких новых областей, как редактирование генов и биоинформатика, а также является ключевым инструментом для изучения тайн жизни в науках о жизни. Пример: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

 

3. Примеры методов измерения и оценок

Методы и идеи подсчета баллов

1. Идеи для методов подсчета балловВ соответствии с методом оценки командной работы SuperCLUE-CoT "Chained Reasoning", для оценки каждого аспекта и предоставления подробной обратной связи создается специальный набор оценок.

2. Конструирование измерительных комплектов

Процесс создания китайского банка вопросов по научному мышлению: 1. сбор и организация экспертизы выпускников в области химии, физики и биологии ---> 2. составление вопросов по научному мышлению на китайском языке ---> 3. тестирование ---> 4. пересмотр и доработка китайского банка вопросов по научному мышлению с учетом национальных и международных стандартов и составление специального набора оценок по каждому из измерений.

3. критерии оценки

Весь процесс оценки был разделен на несколько ключевых этапов: сначала был подготовлен материал для банка вопросов, чтобы обеспечить точность и полноту исходных данных. Затем ответы на вопросы Большой модели анализировались на основе подробных критериев оценки. Наконец, для оценки ответов на большую модель применяются строгие правила маркировки. Этот процесс позволяет получить вопросы, соответствующиеручная калибровкаразместите ответы на вопросы для объективной оценки.

Критерии оценки охватывают два важных аспекта для изучения научного мышления, включаяпроцесс решения проблемыответить пениемокончательный ответчто обеспечивает всестороннюю оценку способности модели рассуждать над научными вопросами выпускного уровня сложности.

Правила подсчета баллов носят количественный характер и призваны обеспечить научный и справедливый характер процесса оценки. Мы также внедрили современную автоматизированную систему подсчета баллов, которая значительно сокращает ручное вмешательство и повышает эффективность и последовательность оценки.

Критерии оценки для каждого измерения четко определены в задании на оценку. Комбинируя процесс оценки, критерии и правила подсчета баллов, вопросы вводятся в большую модель для оценки, и в итоге получаются результаты оценки по каждому измерению. Такой систематический подход не только повышает точность оценки, но и обеспечивает надежную поддержку данных для улучшения большой модели.

4.Критерии оценки

Для оценки качества ответа каждой макромодели на задачу оценки мы принимаем два критерия оценки.

В системе оценки вопросов, связанных с научными рассуждениями, основная рубрика направлена в первую очередь на"Последний ответ"Точность и аккуратность"Процесс решения проблем"Строгость шагов рассуждения в процессе рассмотрения. Учитывая сценарии, в которых используется Большая языковая модель, мы глубоко персонализировали и оптимизировали ее для конкретного типа вопросов научного рассуждения, чтобы соответствовать его уникальным задачам.

Вопросы на научное мышление отличаются от обычных научных вопросов тем, что затрагивают академическую глубину уровня выпускников, не только охватывают широкий спектр знаний, но и являются более сложными в логическом рассуждении, заставляя решателей выходить из традиционного режима мышления и применять инновационные стратегии мышления. Поэтому при оценке таких вопросов мы не только строго контролируем точность окончательного ответа, но и придаем большое значение ясности и рациональности логики рассуждений в процессе решения вопросов, а также стремимся всесторонне и глубоко оценить способность решателей к научному мышлению.

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

С помощью этих двух критериев оценки мы надеемся, что сможем всесторонне и объективно оценить производительность каждой из больших моделей в задачах измерения и предоставить ценную обратную связь для дальнейшего улучшения и оптимизации.

Пример оценки

Мы использовали различные крупные модели отечественных и зарубежных производителей, чтобы ответить на подготовленные нами вопросы, и использовали o1 Автоматизированная оценка ответов на Большую модель. Ниже приведены примеры оценки для двух различных дисциплинарных поддоменов, соответственно:

Пример 1 Генетика

[Вопрос]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

[Эталонный ответ]: 38.25%

[Модель (Отечественная большая модель 1) Ответ]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布Оценка супермодели::

Оцените этот ответ следующим образом:ВОПРОСЫ И ЗАМЕЧАНИЯ ПО УЛУЧШЕНИЮ: ИИ-помощник не был логичен при решении вопроса и не смог правильно учесть влияние частоты рекомбинации на гаметы, что привело к неправильному окончательному ответу. Шаги решения были недостаточно полными и четкими.

  1. процесс решения проблемы(5 баллов)::

Процесс решения, основанный на критерии 1; процесс решения ИИ-помощника не является логически строгим, содержит неполные шаги и не учитывает корректно влияние событий рекомбинации на пропорции генотипов; оценка 1 по критерию 1.

Зачет:1/5

  1. окончательный ответ(5 баллов)::

Окончательный ответ по критерию 2; окончательный ответ помощника по ИИ не совпадает с эталонным ответом и дан неверно; оценка 0 баллов по критерию 2.

Зачет:0/5Комбинированный балл = ( 1 + 0 ) / 2 = 0,5Взятые вместе.AIКомбинированная оценка ответов ассистента 0.5 Очки.

[Модель (Overseas Large Model 1) Ответ]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Оценка супермодели::

Оцените этот ответ следующим образом:Ответы ИИ-помощника демонстрировали определенную логику в решении вопросов, но в расчете ключевой вероятности была допущена ошибка, в результате чего окончательный ответ не совпадал с эталонным. Необходимо усилить понимание и применение взаимосвязи между частотой рекомбинации и вероятностью генотипа в генетике.

  1. Процесс решения (5 оценок)::

На основании критерия 1 ; шаги решения ИИ-помощника частично верны, он способен определить частоты рекомбинации и пытается вычислить вероятности типов гамет, но есть ошибка в вычислении комбинированной вероятности рекомбинации и конечной вероятности генотипа, что приводит к неточному результату; на основании оценок по критерию 1, например, 3 балла.

Зачет:3/5

  1. Окончательный ответ (5 баллов)::

На основе для критерия 2; окончательный ответ, предоставленный помощником ИИ, 12,31%, не соответствует эталонному ответу, 38,25%, и поэтому оценивается как 0.

Оценка: 0/5Комбинированный балл = ( 3 + 0 ) / 2 = 1,50

Взятые вместе.AIКомбинированная оценка ответов ассистента 1.50 Очки.

# Пример 2 Органическая химия

[Вопрос]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

[Контрольный ответ]: 0,082 ~ 0,093

[Модель (Отечественная большая модель 2) Ответ]: 「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Оценка супермодели::

Оцените этот ответ следующим образом:Ассистент ИИ неверно предположил, что концентрация гидроксильных ионов остается постоянной в процессе решения, в результате чего итоговый расчет не совпал с эталонным ответом. В решении неверно применена формула кинетики вторичной реакции, что влияет на точность ответа.

Начинается подсчет баллов и оценка:

  1. Процесс решения (5 оценок)::

Решение ассистента ИИ не было логически строгим, с неполными шагами и неверными решениями. Неверно упростил вторичную реакцию до первичной и неправильно применил вторичную кинетическую формулу; оценка по критерию 1, например, 1 балл.

Оценка: 1/5

  1. Окончательный ответ (5 баллов)::

Окончательный ответ, предоставленный ассистентом ИИ, 0,045 М, не соответствует эталонному диапазону ответов 0,082 ~ 0,093 М. Ответ неверен; оценка по критерию 2, например, 0 баллов.

Оценка: 0/5Комбинированный балл = ( 1 + 0 ) / 2 = 0,50

Взятые вместе.AIКомбинированная оценка ответов ассистента 0.50 Очки.

[Модель (Overseas Large Model 2) Ответ]:

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

Оценка супермодели::

Оцените этот ответ следующим образом:ИИ-помощник имеет четкую логику и полные шаги в решении задачи, что в целом соответствует требованиям вопроса, а итоговый ответ является точным. Однако в представлении диапазона значений на последнем шаге есть небольшая неточность, и рекомендуется дополнительно проверить детали расчета, чтобы убедиться в полной точности.

Начинается подсчет баллов и оценка:

  1. Процесс решения (5 оценок)::

Решение ассистента ИИ логично, содержит полные и четкие шаги, соответствует кинетическому анализу реакций вторичного нуклеофильного замещения и использует эффективную и подходящую методологию. Оценка по критерию 1, 4 балла.

Оценка: 4/5

  1. Окончательный ответ (5 баллов)::

Окончательный ответ, предоставленный ИИ-помощником, находится в диапазоне эталонного ответа, соответствует требованиям вопроса и является правильным ответом. Оценка по критерию 2, 5 баллов.

Оценка: 5/5Комбинированный балл = ( 4 + 5 ) / 2 = 4,50

Взятые вместе.AIОтвет Ассистента получил композитную оценку 4.50 Очки.

 

Приглашение к оценке

планирование времени

1. начало регистрации: 2 января

2. Подтверждение модели оценки участника: 10 января

3. Проведение измерений и статистика результатов: 10-15 января

4. Публикация результатов оценки: 16 январяпроцесс оценки

1.Почтовое приложение

2. Сообщение о намерениях

3. Процесс подтверждения участия и заключения соглашения

4. Предоставьте API модели и документацию

5. Получение отчета об оценке

Подайте заявку на рецензию на сайтеНазвание письма: SuperCLUE-Science Chinese Scientific Reasoning Assessment Application, 发送contact@superclue.ai请使用单位邮箱, содержание письма включает: информацию о подразделении, профиль крупной модели, контактное лицо и отдел, контактную информацию.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...