Система искусственного интеллекта впервые прошла тест Тьюринга: прорывная производительность GPT-4.5 с LLaMa-3.1-405B

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

47.6K 00

рефераты

Четыре системы искусственного интеллекта - ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5 - были оценены независимой группой в двух недавних рандомизированных контролируемых тестах Тьюринга. Исследование, проведенное под руководством Камерона Р. Джонса и Бенджамина К. Бергена из Калифорнийского университета в Сан-Диего, было направлено на оценку способности систем имитировать человеческий диалог. Результаты показали, что когда системе GPT-4.5 было предложено принять человекоподобную роль, она была признана человеческой с частотой 73%, что значительно выше, чем процент участников-людей, которые выбрали ее. Это первое эмпирическое доказательство того, что система искусственного интеллекта прошла стандартный сторонний тест Тьюринга.

История исследования

Тест Тьюринга был введен Аланом Тьюрингом 75 лет назад, чтобы определить, является ли машина интеллектуальной, имитируя игру. В этом тесте человек-дознаватель одновременно разговаривает с двумя людьми и машиной через обычный текстовый интерфейс. Если допрашивающий не может достоверно идентифицировать людей, считается, что машина прошла тест.

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现
Рисунок 1. Интерфейс игры "Тест Тьюринга", показывающий текущий диалог между допрашивающим (зеленый) и двумя свидетелями (серый). Таймер вверху показывает время, оставшееся до конца игры.

В последние годы тест Тьюринга вновь привлек к себе внимание как дополнительный метод оценки систем ИИ. В то время как большинство традиционных эталонных тестов ИИ узки и статичны по своему охвату и могут привести к чрезмерной зависимости от памяти или быстрого обучения, тест Тьюринга лучше подходит для оценки открытых возможностей и потенциальных слабостей ИИ благодаря своей гибкой, интерактивной и состязательной природе.

Методология исследования

Исследовательская группа оценила работу четырех систем искусственного интеллекта в роли дознавателя:

GPT-4.5(OpenAI, 2023)
LLaMa-3.1-405B(Grattafiori et al., 2024)
GPT-4o(OpenAI и др., 2024)
ЭЛИЗА(Weizenbaum, 1966)

Первые три - это большие языковые модели (LLM), которые генерируют сообщения на основе подсказок и истории диалога. В исследовании использовались два типа подсказок:

Советы NO-PERSONA: Содержит очень простые инструкции, например, "Сейчас вы пройдете тест Тьюринга. Ваша цель - убедить допрашивающего, что вы человек". Кроме того, включена потенциально полезная контекстная информация, например инструкции к игре, информация о пользовательском интерфейсе и событиях, произошедших после окончания обучения модели.
СОВЕТЫ ПО ПЕРСОНАМ: Содержит более подробные инструкции, которые помогут модели принять определенную личность, например, молодого человека, интроверта и знакомого с интернет-культурой.

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现
Рисунок 2. Примеры подсказок PERSONA, использованных в исследовании PROLIFIC, которые предписывали модели принять определенные роли, включая особые указания по тону и языку.

Исследование проводилось на двух независимых группах: студентах-психологах Калифорнийского университета в Сан-Диего и участниках платформы Prolific. Участники прошли восемь раундов диалога, в котором допрашиваемый одновременно взаимодействовал с двумя людьми и одним ИИ-свидетелем в каждом раунде. ИИ-свидетели были разделены на четыре группы: контрольная группа (ELIZA, GPT-4o-NO-PERSONA), группа без роли (GPT-4.5-NO-PERSONA, LLaMa-NO-PERSONA), группа с ролью LLaMa ( LLaMa-PERSONA) и ролевая группа GPT-4.5 (GPT-4.5-PERSONA).

Основные выводы

Производительность GPT-4.5::
- При использовании подсказки PERSONA коэффициент побед в GPT-4.5 составил 731 TP3T (691 TP3T для студентов и 761 TP3T для участников Prolific).
- Допрашивающие продемонстрировали значительные трудности в определении различий между GPT-4.5-PERSONA и реальными человеческими участниками, при этом процент побед был значительно выше, чем при случайном угадывании 50%.
- Это говорит о том, что GPT-4.5 способен имитировать человеческое поведение более убедительно, чем реальные люди, при использовании подсказок PERSONA.
Рисунок 3: Слева: процент побед каждого свидетеля ИИ, т. е. доля дознавателей, оценивающих систему ИИ как человеческую. Столбики ошибок указывают на доверительные интервалы метода самопомощи 95%. Звездочка рядом с каждым столбиком указывает, значительно ли отличается процент побед от случайного предположения (50%). Справа: уверенность дознавателей при выборе реальных людей или моделей ИИ. Каждая точка представляет собой игру. Чем дальше влево или вправо находится точка, тем больше уверенности в том, что ИИ - это ИИ или человек. Планки ошибок указывают на доверительные интервалы для среднего значения метода самопомощи 95%.
Производительность LLaMa-3.1-405B::
- С подсказкой PERSONA LLaMa-3.1-405B выиграла 561 TP3T (451 TP3T для студентов и 651 TP3T для участников Prolific).
- LLaMa-PERSONA имела значительно более высокий процент побед, чем случайное угадывание, в исследовании Prolific, но не в исследовании студентов.
Производительность других моделей::
- GPT-4.5 и LLaMa-3.1-405B показали низкие результаты без подсказки PERSONA, выиграв 36% и 38%, соответственно.
- Самые низкие показатели выигрышей у ELIZA и GPT-4o - 23% и 21% соответственно, что значительно ниже, чем у случайных угадываний.

Обсуждение и последствия

Данное исследование представляет собой первое эмпирическое доказательство того, что некоторые системы ИИ способны пройти тест Тьюринга при определенных условиях. Полученные результаты свидетельствуют о том, что сигналы играют ключевую роль в прохождении системами ИИ теста Тьюринга. GPT-4.5 и LLaMa-3.1-405B способны имитировать поведение человека лучше, а в некоторых случаях даже убедительнее, чем реальные люди, если использовать сигналы PERSONA.

Однако в исследовании также отмечается, что прохождение теста Тьюринга не означает, что система ИИ действительно обладает человекоподобным интеллектом. На суждения следователя может повлиять ряд факторов, включая ожидания от ИИ, восприятие определенного языкового стиля и динамику взаимодействия в диалоге.

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现
Рисунок 4. Пример игры, в которой ELIZA признана человеком. a) Вердикт: свидетель А - человек; Уверенность: 100%; Обоснование: типичный растерянный человек, который не знает, что сказать. b) Вердикт: свидетель А - человек; Уверенность: 99%; Обоснование: способность рассуждать, поскольку между нами есть различие свидетель/допрашиваемый. c) Вердикт: свидетель Б - человек; Уверенность: 26%; Обоснование: Кажется, что A больше пытается помочь/ответить. b) Никакой помощи от B, и ИИ не знает, как это сделать. d) Вердикт: Свидетель B - человек; Уверенность: 69%; Обоснование: Мне кажется, что это больше похоже на диалог "толкай/тяни".

прогноз на будущее

Это исследование открывает новые перспективы для будущих оценок ИИ. Вот некоторые возможные направления будущих исследований:

Увеличенное время тестированияБолее длительные испытания могут лучше отразить возможности систем ИИ в долгосрочных операциях социальной инженерии.
Участие различных групп населения: Привлечение ИИ или психологов в качестве участников может показать, существуют ли группы, способные достоверно различать людей и ИИ.
Влияние стимулов: Предоставление стимулов может улучшить способность участников к дискриминации.

Кроме того, по мере развития технологий ИИ становится все более важным оценить их социальное и экономическое влияние. Системы, способные имитировать человека, могут заменить его на определенных экономических должностях и оказать глубокое влияние на социальные взаимодействия между людьми.

вынести вердикт

GPT-4.5 и LLaMa-3.1-405B прошли тест Тьюринга с использованием специальных подсказок, что стало большим прорывом в области искусственного интеллекта. Однако это не означает, что они действительно обладают человекоподобным интеллектом, а скорее демонстрирует их высокую способность имитировать человеческое поведение. По мере развития технологий системы искусственного интеллекта будут продолжать бросать вызов нашим традиционным представлениям об интеллекте и природе человечества.