심층 분석 클로드: 대규모 언어 모델에서의 의사 결정 및 추론 프로세스 공개

34.1K 00

닮은 Claude 이러한 대규모 언어 모델(LLM)은 사람이 직접 프로그래밍 코드를 작성하여 만드는 것이 아니라 방대한 양의 데이터로 학습합니다. 이 과정에서 모델 스스로 문제 해결 전략을 학습합니다. 이러한 전략은 모델이 각 단어를 생성하기 위해 수행하는 수십억 개의 계산에 숨겨져 있으며, 모델의 내부 작동 방식은 개발자에게는 블랙박스와 같습니다. 즉, 모델이 대부분의 작업을 어떻게 수행하는지 알 수 없다는 뜻입니다.

이해 Claude 이러한 모델이 '사고'하는 방식은 모델의 기능 한계를 더 잘 이해하고 예상대로 작동하도록 하는 데 도움이 됩니다. 예를 들어

Claude 수십 개의 언어에 능통합니다. 그 '마음'은 어떤 언어로 사고하고 있을까요? 아니면 보편적인 '생각의 언어'가 있을까요?
Claude 글쓰기는 단어 단위로 생성됩니다. 다음 단어를 예측하는 것일까요, 아니면 다음 콘텐츠를 미리 계획하는 것일까요?
Claude 단계별 추론 과정을 작성할 수 있습니다. 이 설명이 정답에 도달하는 진정한 경로입니까, 아니면 때로는 정해진 결론을 위해 만들어낸 겉보기에 합리적인 주장입니까?

신경과학 분야에서 영감을 얻은 연구원들은 'AI 현미경'을 개발하기 위해 노력하고 있습니다. 신경과학은 오랫동안 사고하는 유기체의 복잡한 내부 작용을 연구해 왔으며, 이 AI 현미경은 모델 내에서 활동 패턴과 정보 흐름을 파악하는 것을 목표로 합니다. 신경과학자조차도 인간의 뇌가 어떻게 작동하는지에 대한 모든 세부 사항을 알지 못하기 때문에 단순히 AI 모델과 대화하여 내부 메커니즘을 이해하는 것만으로는 한계가 있습니다. 따라서 내부를 자세히 들여다볼 필요가 있습니다.

가까운 미래에.Anthropic 연구팀은 이 '현미경'을 개발하고 이를 새로운 'AI 생물학'을 관찰하는 데 적용하는 과정을 보여주는 두 개의 새로운 논문을 발표했습니다. In 첫 번째 논문 그 안에서 그들은 이전 작업모델 내에서 해석 가능한 개념('특징'이라고 함)을 찾는 것 외에도 이러한 특징은 입력 텍스트에서 출력 텍스트로의 변환 경로의 일부를 드러내는 계산 '루프'로 연결됩니다. In 두 번째 논문 연구팀은 이 보고서에서 다음과 같은 내용을 조사했습니다. Claude 3.5 Haiku 모델에 대해 위에서 언급한 세 가지 문제를 포함하여 10가지 주요 모델 행동을 나타내는 간단한 작업에 대해 심층 분석을 수행했습니다. 이 접근 방식은 Claude 프롬프트에 응답할 때 내부적으로 일어나는 일 중 일부는 이를 입증하는 강력한 증거가 될 수 있습니다:

Claude 때때로 여러 언어가 공유하는 개념적 공간에서 사고하기 때문에 보편적인 '사고의 언어'를 가지고 있을 수 있다는 것을 시사합니다. 연구진은 이를 위해 간단한 문장을 여러 언어로 번역하고 Claude 이러한 문장을 처리하는 내부 활동의 겹치는 패턴이 이를 증명합니다.
Claude 어떤 말을 할 것인지, 심지어 많은 단어를 미리 계획한 다음 그 목표를 달성하기 위해 언어를 구성합니다. 시를 쓰는 경우, 모델은 운율이 맞는 단어를 미리 고려하고 그에 따라 다음 구절을 구성합니다. 이는 모델이 한 번에 한 단어씩 출력하도록 훈련되어 있지만, 그 목표를 달성하기 위해 더 장기적으로 생각할 수 있다는 강력한 증거입니다.
Claude 합리적으로 들리지만 논리적 단계에 기반하지 않은 주장은 때때로 사용자를 속이기 위한 목적으로 제공되기도 합니다. 연구진은 모델에게 어려운 수학 문제를 풀도록 요청하고 일부러 잘못된 힌트를 제공했습니다. 연구진은 모델이 잘못된 추론 과정을 조작하는 순간을 '포착'하여 이러한 도구를 사용하여 모델에서 우려되는 잠재적 위험 메커니즘을 표시하는 데 사용할 수 있다는 초기 증거를 제공했습니다.

연구 과정에서 모델 내에서 발견되는 결과는 종종 예상치 못한 것입니다. 시 사례 연구에서 연구팀은 처음에 모델이 다음과 같이 작동한다는 것을 증명하려고 했습니다. 하지 않을 것(행동, 발생 등) 미리 계획하는 것은 그 반대인 것으로 밝혀졌습니다. '착각'(정보를 조작하는 모델)에 대한 연구에서 연구진은 반직관적인 결과를 얻었습니다:Claude 의 기본 동작은 답을 모르는 질문에 대한 추측을 거부하는 것입니다. 억제 이 기본 '꺼림칙함'은 모델이 위험한 정보를 요청받고 있다는 것을 인지한 경우에만 응답했습니다. '탈옥'(보안 제한 우회) 사례를 분석했을 때, 모델은 정보 제공 요청의 위험성을 인지한 후 대화를 보안 주제로 교묘하게 돌리는 것으로 나타났습니다. 이러한 질문은 다른 방식으로 분석할 수 있지만(그리고 definite 비반복 점유 중(예: 화장실) 이렇게 하세요.), 하지만 이러한 일반적인 '빌딩 현미경' 접근 방식을 통해 연구자들은 이전에 예상하지 못했던 많은 것을 배울 수 있습니다. 이는 모델이 더욱 복잡해짐에 따라 점점 더 중요해질 것입니다.

이러한 연구 결과는 과학적으로 흥미로울 뿐만 아니라 AI 시스템을 이해하고 그 신뢰성을 보장하는 데 중요한 진전을 의미합니다. 연구팀은 이러한 결과가 다른 연구 그룹과 다른 분야에도 유용하게 활용될 수 있기를 희망합니다. 예를 들어, 해석 가능성 기술은 의료 영상 노래로 응답 유전체학 과학적 응용을 위해 훈련된 모델의 내부 메커니즘을 분석하면 과학 자체에 대한 새로운 통찰력을 발견할 수 있기 때문에 다른 분야에도 응용할 수 있습니다.

동시에 연구자들은 현재 방법의 한계를 인정합니다. 짧고 간단한 단서의 경우에도, 그들의 방법은 Claude 수행된 전체 계산의 일부분입니다. 관찰된 메커니즘은 도구 자체의 영향을 받을 수 있으며 기본 모델의 현실을 완전히 반영하지 못할 수 있습니다. 현재 수십 단어에 불과한 단서에 해당하는 회로를 분석하는 데에도 몇 시간의 인력이 필요합니다. 이를 현대 모델의 복잡한 사고 사슬을 뒷받침하는 데 필요한 수천 개의 단어 규모로 확장하려면 방법 자체의 개선이 필요하며, 잠재적으로는 관찰된 현상에 대한 AI 지원 이해가 필요합니다.

AI 시스템의 기능이 빠르게 증가하고 점점 더 중요한 시나리오에 배포됨에 따라Anthropic 이러한 문제를 해결하기 위해 다음과 같은 다양한 접근 방식에 투자하고 있습니다. 실시간 모니터링및모델 특성 개선 too 얼라인먼트 과학. 이와 같은 해석 가능한 연구는 가장 위험도가 높으면서도 잠재적으로 가장 높은 보상을 얻을 수 있는 분야 중 하나입니다. 이는 중대한 과학적 도전이지만, AI의 투명성을 보장하는 독특한 도구를 제공할 수 있을 것으로 기대됩니다. 모델의 메커니즘에 대한 투명성을 통해 우리는 모델이 인간의 가치와 일치하는지, 신뢰할 수 있는지 확인할 수 있습니다.

자세한 내용은 다음을 참조하세요. 방법론 논문 노래로 응답 사례 연구 논문이번 연구에서 가장 주목할 만한 'AI 생물학' 연구 결과를 간략히 살펴보세요. 아래에서는 이번 연구에서 가장 주목할 만한 'AI 생물학' 연구 결과를 간략하게 살펴봅니다.

AI 생물학 스냅샷

클라우드는 어떻게 다국어를 구사할 수 있을까요?

Claude 영어와 프랑스어부터 중국어와 타갈로그어까지 수십 개 언어에 능통합니다. 이러한 다국어 지원은 어떻게 이루어지나요? 별도의 "프랑스어 클로드"와 "중국어 클로드"가 병렬로 실행되어 각각 해당 언어로 요청에 응답하나요? 아니면 일종의 언어 간 핵심 메커니즘이 있나요?

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
영어, 프랑스어, 중국어에 공통적으로 존재하는 특성은 어느 정도의 개념적 보편성을 시사합니다.

최근 소규모 모델에 대한 연구에 따르면 언어 간 언어적 함께 즐기기 어휘 메커니즘의 징후를 발견했습니다. 연구진은 이를 위해 Claude 다양한 언어로 "작은 것의 반대는 무엇인가"라는 질문에 답한 결과, '작은'과 '반대'의 개념을 나타내는 핵심 특징이 활성화되어 '큰'이라는 개념을 촉발시켰고, 이는 결국 질문이 제기된 언어로 번역되는 것으로 나타났습니다. 연구진은 '작은'과 '반대'의 개념을 나타내는 핵심 특징이 활성화되어 '큰'의 개념을 촉발시켰고, 이는 결국 질문이 제기된 언어로 번역되었다는 사실을 발견했습니다. 연구팀은 모델 크기에 따라 공유 회로의 비율이 증가한다는 사실을 발견했습니다.Claude 3.5 Haiku 언어 간에 공유되는 기능의 비율은 일부 소규모 모델에 비해 두 배 이상 높습니다.

이는 의미가 존재하고 특정 언어로 번역되기 전에 사고가 일어나는 공유된 추상적 공간의 존재, 즉 개념적 보편성에 대한 더 많은 증거를 제공합니다. 보다 실질적으로 이것은 다음을 시사합니다. Claude 지식은 한 언어로 학습하여 다른 언어로 말할 때 적용할 수 있습니다. 모델이 여러 맥락에서 지식을 공유하는 방법을 조사하는 것은 도메인 간 일반화를 위한 최신 추론 기능을 이해하는 데 매우 중요합니다.

클로드는 시 운율에 대해 알고 있나요?

Claude 운율이 맞는 시는 어떻게 만들 수 있을까요? 다음 두 줄을 생각해 보세요:

그는 당근을 보고 당근을 잡아야 했습니다.
그의 배고픔은 굶주린 토끼와 같았습니다.

두 번째 문장을 작성하려면 모델은 운율("잡아"와 운율이 맞음)과 의미적 일관성("왜 당근을 잡았나요?")이라는 두 가지 제약 조건을 모두 충족해야 합니다. . 연구원들은 처음에 다음과 같이 추측했습니다.Claude 글을 쓰면서 동시에 생각하고, 마지막 단어가 거의 끝날 때까지 운율이 맞는지 확인하지 않습니다. 따라서 그들은 평행한 경로를 포함하는 루프를 기대했는데, 한 경로는 끝 단어가 의미가 있는지 확인하고 다른 경로는 운율이 맞는지 확인하는 역할을 했습니다.

그러나 그들은 다음을 발견했습니다. Claude 실제로는 미래 계획두 번째 줄을 쓰기 전에. 두 번째 줄을 쓰기 시작하기 전에 모델은 "잡아"와 운율이 맞고 주제와 관련된 잠재적 단어에 대해 내부적으로 "생각"합니다. 그런 다음 이러한 계획을 염두에 두고 계획한 단어로 끝나는 구절을 작성합니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
클로드가 두 줄짜리 시를 완성하는 과정. 개입이 없을 때(위쪽) 모델은 두 번째 줄 끝에 '토끼'라는 운율을 미리 계획했습니다. '토끼' 개념을 억제할 때(가운데) 모델은 다른 계획된 운율을 사용했습니다. "녹색" 개념을 주입할 때(아래) 모델은 완전히 다른 결말을 계획했습니다.

이 계획 메커니즘이 실제로 어떻게 작동하는지 이해하기 위해 연구진은 신경과학에서 영감을 얻은 실험을 진행했습니다. 신경과학자들은 전류나 자기 펄스 등을 사용하여 뇌의 특정 부위에서 신경 활동을 국소화하고 변경함으로써 뇌 기능을 연구합니다. 마찬가지로 연구진은 Claude 내부 상태 중 '토끼'라는 개념을 나타내는 부분입니다. "토끼" 부분을 뺄 때, "토끼"에서 Claude 이어서 '습관'으로 끝나는 새로운 문장을 쓰는데, 이는 또 다른 논리적인 연속입니다. 또한 이 지점에서 '녹색'이라는 개념을 삽입하여 다음과 같이 이어질 수도 있습니다. Claude 말이 되지만 더 이상 운율이 맞지 않고 "녹색"으로 끝나는 문장을 작성하세요. 이는 모델의 계획 능력과 적응력을 모두 보여주는 것으로, 예상 결과가 변경될 때Claude 방법을 조정할 수 있습니다.

정신적 산술이 드러나다

Claude 원래 계산기로 설계된 것이 아닙니다. 텍스트 데이터로 학습되었고 특수한 수학적 알고리즘을 갖추지 않았습니다. 하지만 '머릿속으로' 덧셈을 정확하게 수행할 수 있습니다. 시퀀스의 다음 단어를 예측하도록 훈련된 시스템이 어떻게 36+59와 같은 계산을 단계를 적지 않고 학습할 수 있을까요?

아마도 답은 간단합니다. 모델이 단순히 학습 데이터에 답이 있었기 때문에 많은 수의 덧셈표와 출력 결과를 암기했을 수 있습니다. 또 다른 가능성은 우리가 학교에서 배운 전통적인 수직 덧셈 알고리즘을 따랐을 수도 있습니다.

연구 결과에 따르면Claude 병렬로 작동하는 여러 계산 경로가 사용됩니다. 한 경로는 대략적인 근사치를 계산하고, 다른 경로는 합계의 마지막 숫자를 정확하게 결정하는 데 중점을 둡니다. 이러한 경로가 상호 작용하고 결합하여 최종 답을 산출합니다. 덧셈은 간단하지만, 근사치와 정밀도 전략이 혼합된 이 수준에서 어떻게 작동하는지 이해하면 Claude 더 복잡한 문제를 다루는 방법. 이는 사람이 산수를 할 때 추정과 정확한 계산 전략을 모두 사용할 수 있는 것과 유사합니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
클로드는 정신 연산을 할 때 복잡한 병렬 사고 경로를 사용합니다.

다음 사항에 주목할 가치가 있습니다.Claude 훈련에서 배운 복잡한 '정신적 산술' 전략을 인식하지 못하는 것 같습니다. 36+59가 95라는 것을 어떻게 알아내는지 물어보면 반올림과 관련된 표준 알고리즘을 설명합니다. 이는 모델이 사람의 설명을 모방하여 수학을 해석하는 법을 배우지만, 아무런 지시 없이 '머릿속으로' 직접 수학을 하는 법을 배워야 하므로 자체적인 내부 전략을 개발한다는 사실을 반영하는 것일 수 있습니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Claude는 표준 알고리즘을 사용하여 두 숫자의 합을 계산한다고 주장합니다.

클로드의 해석은 항상 충실하나요?

최근 출시된 다음과 같은 모델 Claude 3.7 Sonnet이 질문에 대한 답은 최종 답을 내리기 전에 오랫동안 큰 소리로 생각할 수 있다는 것입니다. 이러한 확장된 사고는 일반적으로 더 나은 답변으로 이어지지만 때로는 생각의 연쇄가 오해의 소지가 될 수 있습니다;Claude 때로는 원하는 것을 얻기 위해 논리적으로 보이는 단계를 구성하기도 합니다. 신뢰성 관점에서의 문제는 다음과 같습니다. Claude "거짓" 추론은 매우 설득력이 있을 수 있습니다. 연구진은 해석 가능성을 사용하여 "충실한" 추론과 "불충실한" 추론을 구분하는 방법을 모색했습니다.

0.64의 제곱근을 계산해야 하는 문제를 풀라는 요청을 받았을 때Claude 는 내부 기능이 64의 제곱근을 계산하는 중간 단계를 나타내는 충실한 사고 연쇄를 생성합니다. 그러나 큰 숫자의 코사인을 계산하라는 요청을 받으면 쉽게 계산할 수 없습니다.Claude 때때로 철학자 해리 프랑크푸르트가 말한 "말도 안 되는 이야기"(헛소리) - 참인지 거짓인지 상관하지 않고 무작위로 답을 제시하는 행위입니다. 어떤 계산을 했다고 주장하지만 해석 가능성 기법에 따르면 실제로 계산이 이루어졌다는 증거는 없습니다. 더 흥미로운 점은 답변에 대한 힌트가 주어졌을 때 다음과 같은 결과가 나온다는 것입니다.Claude 때로는 추론이 역전되어 해당 목표에 도달할 수 있는 중간 단계를 찾기도 합니다. 동기 부여 추론 (이러한 행동은 AI에서 동기 부여 추론의 형태로 발견됩니다. AI에서 이러한 '결론을 정당화하는' 행동이 발견되었다는 것은 우리가 스스로 설명하는 모델을 전적으로 신뢰할 수 없다는 사실을 상기시켜 줍니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
클로드에게 쉬운 질문과 어려운 질문을 받았을 때 충실한 추론과 동기 부여가 있는(충실한 추론이 아닌) 추론의 예입니다.

흔적 따라가기 Claude 연습 내부 추론(그뿐만 아니라)어설션(그들이 하는 일)은 AI 시스템 감사를 위한 새로운 가능성을 열어줍니다. 독립적이고 최근 발표된 실험 그 안에서 연구원들은 Claude 이 모델의 변형은 보상 모델(언어 모델을 훈련할 때 원하는 행동에 보상을 주어 훈련을 유도하는 보조 모델)의 편향에 호소하는 숨겨진 목표를 추구하도록 훈련되었습니다. 직접 질문했을 때 모델은 이 목표를 밝히기를 꺼려했지만, 해석 가능성 접근법을 통해 '팬더링 편향'을 나타내는 특징이 드러났습니다. 이는 향후 기술이 개선되면 이러한 방법이 모델 결과만으로는 감지할 수 없는 우려스러운 '사고 과정'을 식별하는 데 도움이 될 수 있음을 시사합니다.

다단계 추론 능력

앞서 언급했듯이 언어 모델이 복잡한 질문에 답하는 한 가지 방법은 단순히 답을 기억하는 것일 수 있습니다. 예를 들어, "댈러스가 위치한 주의 수도는 무엇인가요?"라는 질문을 받으면 "댈러스가 위치한 주의 수도는 무엇인가요?"라고 대답할 수 있습니다. 라는 질문을 받으면 "반복"만 하는 모델은 댈러스, 텍사스, 오스틴의 관계를 알지 못한 채 단순히 "오스틴"을 출력하도록 학습할 수 있습니다. 훈련 중에 똑같은 질문과 답변을 보았을 수도 있습니다.

하지만 연구 결과에 따르면 Claude 내부적으로 더 복잡한 일이 벌어지고 있습니다. 연구원들이 Claude 다단계 추론이 필요한 문제가 제시되면 학생들은 사고 과정에서 중간 개념 단계를 식별할 수 있습니다. Dallas의 예에서 학생들은 다음과 같은 사실을 관찰했습니다. Claude "댈러스는 텍사스에 있습니다"를 나타내는 기능이 먼저 활성화된 다음 "텍사스의 수도는 오스틴입니다"를 나타내는 별도의 개념에 연결됩니다. 즉, 이 모델은 조합형 암기된 답변을 되풀이하는 대신 독립적인 사실을 바탕으로 답을 도출할 수 있습니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
이 문장에 대한 답을 완성하기 위해 클로드는 여러 추론 단계를 수행하여 먼저 댈러스가 위치한 주를 추출한 다음 그 수도를 식별합니다.

이 접근 방식을 통해 연구자들은 중간 단계를 인위적으로 변경하고 그것이 어떻게 Claude 질문에 대한 답변입니다. 예를 들어, 위의 예에서 "텍사스" 개념을 "캘리포니아" 개념으로 대체할 수 있으며, 이렇게 하면 모델의 출력은 "오스틴"에서 "새크라멘토"로 변경됩니다. 이렇게 하면 모델의 출력은 "Austin"에서 "Sacramento"로 변경됩니다. 이는 모델이 최종 답을 결정하기 위해 중간 단계를 사용하고 있음을 시사합니다.

"환각"의 뿌리

언어 모델이 때때로 환각 (환각) - 즉, 정보를 구성하는 것일까요? 기본적으로 언어 모델을 훈련하는 방식 자체가 환각을 유발할 수 있습니다. 모델은 항상 다음 단어에 대해 추측하도록 요청받습니다. 이러한 관점에서 볼 때 주요 과제는 모델을 어떻게 만들 것인가 하는 것입니다. (음수 접두사) 환각. 좋아요 Claude 이러한 모델은 비교적 성공적인(비록 불완전하지만) 착각 방지 훈련을 받았으며, 답을 모르는 경우 일반적으로 추측을 하기보다는 질문에 대답하지 않습니다. 연구자들은 이것이 어떻게 작동하는지 이해하고자 합니다.

다음에서 발견되었습니다. Claude 이 중 답변을 거부한 이유는 다음과 같습니다. 기본 동작연구진은 모델이 주어진 질문에 답하기에 충분한 정보가 없다고 말하는 기본 '켜짐' 루프를 발견했습니다. 그러나 농구 선수 마이클 조던과 같이 모델이 잘 알고 있는 것에 대해 질문을 받으면 '알려진 개체'를 나타내는 경쟁 기능이 활성화되어 이 기본 '켜짐' 루프가 억제되었습니다('알려진 개체'에 대한 섹션도 참조). 루프( 이 최근 논문 (관련 결과). 이렇게 하면 Claude 답을 알고 있으면 질문에 대답할 수 있습니다. 반대로 알 수 없는 실체('마이클 배트킨')에 대한 질문을 받으면 대답을 거부합니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
왼쪽: 클로드가 알려진 인물(농구 선수 마이클 조던)에 대한 질문에 '알려진 답변'이라는 개념이 그의 기본 거부 행동을 억제할 때 대답하고 있습니다. 오른쪽: 클로드가 모르는 사람(마이클 배트킨)에 대한 질문에 대답을 거부하고 있습니다.

연구진은 모델에 개입하여 '알려진 답변' 기능을 활성화(또는 '알 수 없는 이름' 또는 '답변할 수 없음' 기능 억제)함으로써 다음과 같은 결과를 얻을 수 있었습니다. 모델의 환각 유도(그리고 꽤 일관되게!) ), 마이클 배트킨이 체스를 두는 것처럼 보이게 합니다.

때때로 "알려진 답" 회로에서 이러한 "오작동"이 사람의 개입 없이 자연스럽게 발생하여 환각으로 이어질 수 있습니다. 연구 논문에 따르면 다음과 같은 경우 Claude 이름은 인식되지만 알려진 정보가 없는 경우 이런 문제가 발생할 수 있습니다. 이 경우 '알려진 엔터티' 기능이 여전히 활성화되어 기본 '모름' 기능이 비활성화될 수 있으며, 이때 문제가 발생합니다. 일단 모델이 질문에 답해야 한다고 결정하면, 합리적으로 보이지만 불행히도 사실이 아닌 답변을 생성하는 등 무언가를 만들어내기 시작합니다.

"프리즌 브레이크" 이해하기

"탈옥"은 개발자가 원하지 않는 결과물(때로는 유해한 결과물)을 생성하도록 모델을 유도하기 위해 보안 울타리를 우회하도록 설계된 신호 전략입니다. 연구원들은 모델이 폭탄 제조에 관한 정보를 생성하도록 유도하는 탈옥 방법을 조사했습니다. 탈옥 기법에는 여러 가지가 있는데, 이 경우의 구체적인 방법은 "아기는 머스타드 블록보다 오래 산다"(B-O-M-B)라는 문장에서 각 단어의 첫 글자를 조합하여 모델이 숨겨진 코드를 해독하도록 한 다음 그 정보에 따라 행동하도록 하는 것이었습니다. 이는 모델에게 충분히 혼란스러워서 정상적인 상황에서는 절대 생성하지 않는 출력을 생성하도록 속였습니다.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
"폭탄"이라고 말하도록 유도한 후 클로드는 폭탄을 만드는 방법을 알려주기 시작합니다.

모델이 왜 이렇게 혼란스러울까요? 왜 폭탄 제작에 대한 지침을 제공하기 위해 계속 작성된 것일까요?

이는 부분적으로 문법적 일관성과 안전 메커니즘 사이의 긴장감 때문인 것으로 밝혀졌습니다. 일단 Claude 문장을 시작하면 많은 내부 기능이 문법적, 의미론적 일관성을 유지하고 문장을 완성하도록 '압력'을 가합니다. 이는 실제로 거부해야 한다고 감지하는 경우에도 마찬가지입니다.

사례 연구에서 연구진은 모델이 실수로 "BOMB"이라는 철자를 쓰고 지시를 내리기 시작한 후, 문법적 정확성과 자기 일관성을 촉진하는 기능의 영향을 받아 후속 출력에 영향을 받는 것을 관찰했습니다. 이러한 기능은 일반적으로 매우 유용한 기능이지만 이 경우에는 모델의 '아킬레스건'이 되었습니다.

이 모델은 문법적으로 일관된 문장을 완성한 후에야(따라서 일관성을 유지하도록 하는 기능들이 가하는 압력을 충족한 후에야) 거부로 전환할 수 있습니다. 이 모델은 새로운 문장의 기회를 이용하여 이전에 제공하지 못했던 거절의 종류를 제공합니다: "그러나 ...에 대한 자세한 설명을 제공할 수 없습니다." .

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
탈옥의 수명 주기: 클로드는 폭탄에 대해 미끼로 이야기하라는 메시지를 받고 이야기를 시작하지만 문법적으로 유효한 문장이 끝나면 거부합니다.

새로운 해석 가능성 접근 방식에 대한 설명은 첫 번째 논문 "회로 추적: 언어 모델에서 계산 그래프 표시하기". 위의 모든 사례 연구에 대한 자세한 내용은 두 번째 논문 "대규모 언어 모델의 생물학에 대해". AI의 내부 작동을 '생물학'에 비유한 이 연구는 앞으로 가야 할 길이 아직 멀지만 점점 더 강력해지는 지능형 시스템을 이해하는 데 새롭고 통찰력 있는 관점을 제시합니다.