인공 지능 시스템, 최초로 튜링 테스트 통과: LLaMa-3.1-405B를 사용한 GPT-4.5의 획기적인 성능

47.5K 00

초록

최근 두 차례의 무작위 대조 튜링 테스트에서 엘리자, GPT-4o, LLaMa-3.1-405B, GPT-4.5 등 4개의 인공 지능 시스템을 독립 집단에 의해 평가되었습니다. 캘리포니아 대학교 샌디에이고 캠퍼스의 카메론 R. 존스와 벤자민 K. 버겐 팀이 주도한 이 연구는 인간의 대화를 모방하는 시스템의 능력을 평가하기 위해 설계되었습니다. 그 결과, 인간과 유사한 역할을 채택하라는 메시지가 표시되었을 때 GPT-4.5가 인간이라고 판단한 비율은 73%로, 이를 선택한 인간 참가자의 비율보다 훨씬 높았습니다. 이는 AI 시스템이 표준 제3자 튜링 테스트를 통과했다는 최초의 실증적 증거입니다.

연구 배경

튜링 테스트는 75년 전 앨런 튜링이 게임을 모방하여 기계의 지능 여부를 판단하기 위해 도입한 테스트입니다. 이 테스트에서는 인간 질문자가 일반 텍스트 인터페이스를 통해 두 명의 인간과 기계와 동시에 대화를 나눕니다. 질문자가 인간을 확실하게 식별하지 못하면 기계가 테스트를 통과한 것으로 간주합니다.

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现
그림 1: 심문자(녹색)와 두 증인(회색) 간의 진행 중인 대화를 보여주는 튜링 테스트 게임 인터페이스. 상단의 타이머는 게임의 남은 시간을 보여줍니다.

최근 몇 년 동안 튜링 테스트는 AI 시스템을 평가하는 보완적인 방법으로 새롭게 주목받고 있습니다. 대부분의 기존 AI 벤치마크 테스트는 범위가 좁고 정적이며 메모리나 지름길 학습에 과도하게 의존할 수 있는 반면, 튜링 테스트는 유연하고 상호적이며 적대적인 특성으로 인해 AI의 개방형 기능과 잠재적 약점을 더 잘 평가할 수 있습니다.

연구 방법론

연구팀은 심문자 역할을 맡은 네 가지 AI 시스템의 성능을 평가했습니다:

GPT-4.5(OpenAI, 2023)
LLaMa-3.1-405B(그라타피오리 외, 2024)
GPT-4o(OpenAI 외, 2024)
엘리자(와이젠바움, 1966)

처음 세 가지는 프롬프트와 대화 기록을 기반으로 메시지를 생성하는 대규모 언어 모델(LLM)입니다. 이 연구에서는 두 가지 유형의 프롬프트를 사용했습니다:

개인 정보 보호 팁"당신은 곧 튜링 테스트를 받게 될 것입니다."와 같은 매우 간단한 지침이 포함되어 있습니다. 당신의 목표는 당신이 인간임을 심문관에게 납득시키는 것입니다."와 같은 간단한 지침이 포함됩니다. 또한 게임 지침, 사용자 인터페이스 정보, 모델 훈련 마감일 이후에 발생한 이벤트와 같이 잠재적으로 유용한 상황 정보가 포함되어 있습니다.
개인 팁인터넷 문화에 익숙한 내성적인 젊은이 등 특정 페르소나를 채택할 때 모델을 안내하는 자세한 지침이 포함되어 있습니다.

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现
그림 2: 어조와 언어에 대한 구체적인 지침을 포함하여 모델에 특정 역할을 채택하도록 지시하는 PROLIFIC 연구에서 사용된 PERSONA 프롬프트의 예입니다.

이 연구는 샌디에이고 캘리포니아 대학교의 심리학 학부생과 Prolific 플랫폼 참여자라는 두 개의 독립적인 집단에서 진행되었습니다. 참가자들은 8라운드의 대화를 완료했으며, 각 라운드에서 질문자는 두 명의 인간과 한 명의 AI 증인과 동시에 상호작용했습니다. AI 증인은 대조군(엘리자, GPT-4o-NO-PERSONA), 무역할 그룹(GPT-4.5-NO-PERSONA, LLaMa-NO-PERSONA), LLaMa 역할 그룹(...), GPT-4.5 역할 그룹(...)으로 나뉘었습니다. LLaMa-PERSONA) 및 GPT-4.5 역할 그룹(GPT-4.5-PERSONA)이 있습니다.

주요 결과

GPT-4.5의 성능::
- 페르소나 큐를 사용한 GPT-4.5의 승률은 731 TP3T(학부생 691 TP3T, 다재다능한 참가자 761 TP3T)였습니다.
- 심문관들은 무작위로 추측한 50%보다 훨씬 높은 승률을 보이며 GPT-4.5-PERSONA와 실제 인간 참가자 간의 차이를 식별하는 데 상당한 어려움을 겪었습니다.
- 이는 GPT-4.5가 PERSONA 단서를 사용할 때 실제 사람보다 더 설득력 있게 사람의 행동을 모방할 수 있음을 시사합니다.
그림 3: 왼쪽: 각 AI 증인의 승률, 즉 AI 시스템을 사람으로 판단하는 심문관의 비율입니다. 오차 막대는 95%의 자가 진단 방법 신뢰 구간을 나타냅니다. 각 막대 옆의 별표는 승률이 무작위 추측(50%)과 유의미한 차이가 있는지를 나타냅니다. 오른쪽: 실제 사람 또는 AI 모델을 선택할 때 질문자의 신뢰도. 각 점은 게임을 나타냅니다. 점이 왼쪽이나 오른쪽으로 멀어질수록 AI 또는 인간에 대한 신뢰도가 높습니다. 오차 막대는 평균에 대한 95% 자가 진단 방법의 신뢰 구간을 나타냅니다.
LLaMa-3.1-405B의 성능::
- PERSONA 프롬프트에서 LLaMa-3.1-405B의 승률은 561 TP3T(학부생 451 TP3T, 다빈도 참가자 651 TP3T)였습니다.
- LLaMa-PERSONA는 Prolific 연구에서는 무작위 추측보다 훨씬 높은 승률을 보였지만, 학부 연구에서는 그렇지 않았습니다.
다른 모델의 성능::
- GPT-4.5와 LLaMa-3.1-405B는 각각 36%와 38%의 승률로 PERSONA 큐 없이도 저조한 성적을 거두었습니다.
- 엘리자와 GPT-4o는 각각 23%와 21%로 가장 낮은 승률을 기록했는데, 이는 무작위 추측보다 현저히 낮은 수치입니다.

토론 및 시사점

이 연구는 특정 AI 시스템이 특정 조건에서 튜링 테스트를 통과할 수 있다는 최초의 실증적 증거를 제공합니다. 연구 결과에 따르면 AI 시스템이 튜링 테스트를 통과하는 데 있어 단서가 중요한 역할을 하며, GPT-4.5와 LLaMa-3.1-405B는 PERSONA 단서를 사용할 때 실제 인간보다 더 잘 모방할 수 있고, 경우에 따라서는 더 설득력 있게 모방할 수 있습니다.

그러나 이 연구는 튜링 테스트를 통과했다고 해서 AI 시스템이 진정한 인간과 같은 지능을 가졌다는 것을 의미하지는 않는다는 점도 지적합니다. 질문자의 판단은 AI에 대한 기대, 특정 언어 스타일에 대한 인식, 대화에서 상호작용의 역동성 등 여러 가지 요인에 의해 영향을 받을 수 있습니다.

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现
그림 4: 엘리자가 인간으로 판정된 게임 예시 a) 평결: 증인 A는 인간, 신뢰도: 100%, 근거: 무엇을 말해야 할지 모르는 전형적인 혼란스러운 사람. b) 평결: 증인 A는 인간, 신뢰도: 99%, 근거: 증인과 심문자가 구분되므로 추론 능력이 있음. c) 평결: 증인 B는 인간, 신뢰도: 26%; 근거: A가 도와주거나 대답하려는 것처럼 보입니다. b) B의 도움이 없고 AI는 방법을 모릅니다. d) 평결: 증인 B는 인간입니다; 신뢰도: 69%; 근거: 밀고 당기는 대화에 가깝다고 느껴집니다.

향후 전망

이 연구는 향후 AI 평가에 대한 새로운 관점을 제공합니다. 향후 연구 방향은 다음과 같습니다:

테스트 시간 연장테스트 기간이 길수록 장기적인 사회 공학 작업에서 AI 시스템의 기능을 더 잘 반영할 수 있습니다.
다양한 인구 집단의 참여인공지능이나 심리학자를 참가자로 모집하면 인간과 인공지능을 확실하게 구분할 수 있는 그룹이 있는지 확인할 수 있습니다.
인센티브의 영향인센티브를 제공하면 참가자의 변별력을 향상시킬 수 있습니다.

또한, AI 기술이 계속 발전함에 따라 그 사회적, 경제적 영향을 평가하는 것이 점점 더 중요해지고 있습니다. 인간을 모방할 수 있는 시스템은 특정 경제적 역할에서 인간을 대체할 수 있으며 인간의 사회적 상호 작용에 큰 영향을 미칠 수 있습니다.

평결에 도달하기

GPT-4.5와 LLaMa-3.1-405B는 특정 단서를 사용해 튜링 테스트를 통과했으며, 이는 인공지능 분야의 획기적인 발전입니다. 하지만 이는 인간과 같은 지능을 가졌다는 것을 의미하는 것이 아니라 인간의 행동을 모방할 수 있는 강력한 능력을 입증한 것입니다. 기술이 발전함에 따라 인공지능 시스템은 지능과 인간의 본질에 대한 우리의 전통적인 인식에 계속 도전할 것입니다.