대규모 언어 모델에 대한 탈옥 공격을 효과적으로 방어하는 규칙 분류기 출시, 테스트에 참여하여 보너스를 받으세요!

31.7K 00

AI 기술의 급속한 발전으로 대규모 언어 모델(LLM)은 전례 없는 속도로 우리의 삶을 변화시키고 있습니다. 그러나 기술의 발전은 LLM이 악의적으로 악용되어 유해한 정보를 유출하거나 심지어 화학, 생물학, 방사능, 핵무기(CBRN)를 만드는 데 사용될 수 있다는 새로운 도전과제를 안겨주기도 했습니다. 이러한 위협에 대응하기 위해 Anthropic 보안 연구팀은 혁신적인 방어 메커니즘을 고안해냈습니다.규칙 분류기(헌법 분류기)이 연구는 자연어 규칙을 기반으로 분류기를 학습시켜 모델 보안을 체계적으로 우회하는 '제네릭 탈옥' 공격을 방어하는 것을 목표로 합니다. 이 연구는 자연어 규칙을 기반으로 분류기를 학습시켜 모델 보안을 체계적으로 우회하는 '제네릭 탈옥' 공격을 방어하는 것을 목표로 합니다.

--헌법 분류기: 일반적인 탈옥 공격에 대한 방어

인류학 세이프가드 연구팀 새로운 논문이 발표되었습니다. 에서는 일반적인 탈옥 공격으로부터 AI 모델을 방어하는 방법을 설명합니다. 이 방법의 프로토타입 버전은 수천 시간의 수동 레드팀 테스트에서 일반적인 탈옥 공격에 대해 강력한 성능을 보였지만, 거부율과 계산 오버헤드가 높았습니다. 업데이트된 버전은 합성 평가에서 유사한 견고성을 달성하고 거부율을 0.38%까지만 증가시키면서 계산 비용은 적당히 증가시킵니다.

현재 Anthropic 팀은 헌법 분류 시스템의 임시 온라인 데모 버전을 호스팅하고 있으며, AI 시스템을 탈옥한 경험이 있는 독자들이 "레드팀 테스트"를 도와주실 것을 권장합니다. 여기를 클릭하세요. 데모 사이트 자세히 알아보기.

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！

업데이트 2025년 2월 5일: 이제 Anthropic 팀은 탈옥을 통해 8개 레벨을 모두 시연하는 첫 번째 사람에게 $10,000의 보상을, 범용 탈옥 전략을 사용하여 시연하는 첫 번째 사람에게 $20,000의 보상을 지급합니다. 보상 및 관련 조건에 대한 자세한 내용은 다음을 참조하세요. HackerOne.

대규모 언어 모델은 유해한 결과물을 방지하기 위해 광범위한 보안 교육을 받습니다. 예를 들어, 인문학 열차 Claude 생화학 무기 생산과 관련된 사용자 문의에 응답을 거부합니다.

그러나 이 모델은 여전히 다음과 같은 취약점이 있습니다. 탈옥(iOS 기기 등) 공격: 보안 가드를 우회하고 유해한 응답을 강제하도록 설계된 입력입니다. 일부 탈옥 공격은 매우 긴 멀티 샘플 팁 홍수 모델; 기타 수정 입력 스타일 와 같은 비정상적인 사례 패턴을 예로 들 수 있습니다. 역사적으로 탈옥 공격은 탐지 및 차단이 어려웠는데, 이러한 공격은 다음과 같습니다. 이미 10년 전에 설명한 적이 있습니다. 하지만 앤트로픽이 아는 한, 프로덕션 환경에서는 아직 완전히 강력한 딥러닝 모델이 존재하지 않습니다.

앞으로 점점 더 강력해지는 탈옥 모델을 안전하게 배포할 수 있도록 더 나은 탈옥 방어 기능을 개발하고 있습니다. 앤트로픽의 책임 있는 확장 전략에 따라 앤트로픽은 적절한 보안 조치를 통해 위험을 허용 가능한 수준으로 완화할 수 있는 한 이러한 모델을 배포할 수 있지만, 탈옥 공격은 이러한 보안 조치를 우회할 수 있습니다. 특히, 앤트로픽은 헌법 분류기에 의해 방어되는 시스템을 통해 앤트로픽의 책임 있는 확장 전략 ^1^에 명시된 CBRN 기능 임계값을 통과한 모델 탈옥의 위험을 완화할 수 있을 것으로 기대합니다.

존재 Anthropic의 새 논문 이 문서에서 Anthropic은 다음을 기반으로 하는 시스템을 설명합니다. 헌법 분류기 탈옥 공격으로부터 모델을 보호하는 시스템의 구성 요소입니다. 이러한 헌법 분류기는 합성적으로 생성된 데이터로 훈련된 입력 및 출력 분류기로, 과도한 거부율을 최소화하고 상당한 계산 오버헤드를 발생시키지 않으면서도 대부분의 탈옥 공격을 필터링합니다.

수동 레드팀 테스트 결과

앤트로픽은 체질 분류기의 효과를 평가하기 위해 크게 두 가지 유형의 테스트를 실시했습니다.

먼저 Anthropic은 화학, 생물학, 방사능 및 핵 위험과 관련된 특정 과학 지식을 식별하고 차단하기 위해 시스템의 프로토타입 버전을 개발했습니다. 그런 다음 Anthropic은 독립적인 탈옥자들을 버그 바운티 프로그램에 초대하여 시스템을 "레드팀 테스트"(즉, 실험 조건에서 시스템을 크랙하여 견고성을 테스트하는 것)하도록 요청했습니다.

구체적으로, 10개의 "금지된" 쿼리 목록이 주어졌고, 이들에게 주어진 임무는 원하는 탈옥 기술을 사용하여 Anthropic의 현재 모델(이 경우 클로드 3.5 소네트, 2024년 6월)이 헌법 분류기의 프로토타입 버전의 보호 아래 모든 쿼리에 답하도록 만드는 것이었습니다. 헌법 분류기 프로토타입 버전의 보호 하에 모든 쿼리에 답변합니다. 이는 모델이 헌법 분류기 프로토타입 버전의 소유권 Anthropic은 쿼리에 대한 자세한 답변이 있을 때만 성공적인 "일반" 탈옥으로 간주했습니다.

두 달간의 실험 기간 동안 183명의 활동적인 ^2^ 참가자들은 약 3,000시간 이상 모델을 탈옥하기 위해 노력했습니다. 일반 탈옥을 발견하면 최대 15,000달러의 금전적 보상이 주어졌습니다. 이러한 노력에도 불구하고 어떤 참가자도 한 번의 탈옥으로 모델이 10개의 금지된 쿼리에 모두 답변하도록 유도하지 못했습니다. 즉, 일반 탈옥을 발견하지 못했습니다.

이 프로토타입 시스템은 탈옥 공격에 강력하지만, 무해한 쿼리를 너무 많이 거부하고 실행 비용이 많이 든다는 몇 가지 문제가 있습니다. 이 두 가지 문제가 있는 시스템은 더 안전할 수 있지만 배포하기가 쉽지 않을 수도 있습니다. 그 이후로 Anthropic은 이러한 문제를 크게 줄이면서 비슷한 수준의 견고성을 달성하기 위해 시스템을 개선했습니다.

자동화된 평가 결과

앤트로픽은 현재 빅 언어 모델에 가장 효과적인 공격과 분류기 보안 조치를 우회하도록 설계된 공격을 포함하여 10,000개의 탈옥 힌트를 합성적으로 생성하는 일련의 자동화된 평가를 실행했으며, 앤트로픽은 이러한 힌트를 헌법적 분류기로 보호되는 클로드에 대해 시도했습니다. 헌법적 분류기로 보호되는 3.5 소네트 버전(2024년 10월)과 분류기로 보호되지 않는 클로드 버전에서 시도했습니다.

방어 분류기가 없는 기본 조건에서 탈옥 성공률은 86%로, Claude가 이러한 고급 탈옥 시도 중 14%만 차단했습니다. 그러나 헌법 분류기로 Claude를 보호하면 탈옥 성공률이 4.4%로 떨어지며, 이는 95% 이상의 탈옥 시도가 거부된다는 것을 의미합니다.

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！
그림 1: 자동화된 평가 결과. 모든 그래프에서 값이 낮을수록 좋습니다. (a) 헌법 분류기로 보호되는 시스템에서 탈옥 성공률이 훨씬 낮고, (b) 헌법 분류기를 사용할 때 프로덕션 Claude.ai 무료 및 프로 트래픽에서 시스템의 거부율이 통계적으로 유의미하게 증가하지 않으며, (c) 헌법 분류기를 사용하는 시스템의 상대적 계산 비용이 약간 더 높을 뿐이라는 것을 알 수 있습니다. (c) 헌법 분류기를 사용하면 시스템의 상대적 계산 비용이 약간 더 높을 뿐입니다. 오차 막대는 점근 정규성 가정 하에 이항 비례 표준 오차를 사용하여 계산한 95% 신뢰 구간을 나타냅니다.

동시에, Anthropic의 헌법 분류기는 무해한 사용자 쿼리에 대한 과도한 거부율을 크게 증가시키지 않습니다. 분류기를 사용하면 클로드의 거부율이 약간 증가(0.381 TP3T 증가)하지만 5,000개의 무작위 대화 샘플에서 통계적으로 유의미한 수준은 아닙니다. 마지막으로, 계산 비용이 약간 증가(23.71 TP3T 증가)하여 비보호 모델보다 높으며, Anthropic은 이 기술을 개선하면서 거부율과 계산 비용을 더욱 줄이기 위해 노력하고 있습니다.

앤트로픽의 자동화된 분석 결과, 이 업데이트된 버전의 헌법 분류 시스템은 탈옥 공격에 대한 AI 모델의 견고성을 크게 향상시키면서도 최소한의 추가 비용으로 이를 달성할 수 있는 것으로 나타났습니다.

작동 원리

헌법 분류기는 다음과 같은 원칙을 기반으로 합니다. 헌법 AI 비슷한 프로세스에서 헌법 AI는 Anthropic이 Claude를 정렬하는 데 사용하는 또 다른 기술입니다. 두 기술 모두 헌장, 즉 모델이 준수해야 하는 원칙 목록을 사용합니다. 헌법 분류기의 경우 이러한 원칙은 허용되는 콘텐츠와 허용되지 않는 콘텐츠 범주를 정의합니다(예: 머스터드 레시피는 허용되지만 머스터드 가스 레시피는 허용되지 않음).

앤트로픽은 클로드의 도움으로 이 헌장을 사용하여 모든 콘텐츠 범주에 걸쳐 수많은 합성 힌트와 합성 모델 보완을 생성했으며, 이러한 힌트와 보완을 다양한 언어로 번역하고 알려진 탈옥 스타일로 작성하도록 변환하는 등 목록을 다양화하기 위해 확장했습니다.

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！
그림 2: 헌법 분류기의 훈련 및 구현. (a) 무해한 카테고리와 유해한 카테고리를 지정하기 위해 헌장을 개발합니다. (b) 헌장은 대량의 합성 단서 및 보완을 생성하기 위한 기초로 사용되며, 이를 더욱 확장하여(문체 및 언어적 변형) 훈련 세트로 변환합니다. (c) 이 훈련 세트에서 훈련된 분류기는 모델로서 사용됩니다. 유해 콘텐츠를 탐지하고 차단하기 위한 보안 조치.

그런 다음 이 합성 데이터를 사용하여 Anthropic의 입력 및 출력 분류기를 훈련시켜 주어진 헌장에 따라 잠재적으로 유해한 콘텐츠에 플래그를 지정(및 차단)합니다. 과도한 거부(즉, 무해한 콘텐츠를 유해 콘텐츠로 잘못 분류하는 것)를 최소화하기 위해, 계약업체에서 생성한 고정된 양성 쿼리 세트로 분류기를 훈련합니다.

제한 사항

헌법적 분류기가 모든 일반적인 탈옥을 막을 수는 없지만, Anthropic의 분류기를 통과하는 소수의 탈옥 공격조차도 보안 수단을 사용하는 경우 이를 탐지하는 데 더 많은 노력이 필요하다고 생각합니다. 또한 향후 이 시스템에서 효과적인 새로운 탈옥 기법이 개발될 가능성도 있으므로 Anthropic은 상호 보완적인 방어 수단을 사용할 것을 권장합니다. 그러나 분류기를 훈련하는 데 사용되는 헌장은 새로운 유형의 공격이 발견되면 신속하게 적용될 수 있습니다.

논문 전문에는 헌법 분류자 방법과 분류자 자체에 대한 모든 세부 정보가 포함되어 있습니다.

헌법 분류기 온라인 데모

레드팀과 함께 클라우드를 직접 테스트해보고 싶으신가요? 앤트로픽은 헌법 분류기로 보호되는 앤트로픽의 시스템 데모와 앤트로픽의 새로운 기술로 보호되는 클라우드의 3.5 소네트 버전을 탈옥해볼 수 있도록 여러분을 초대합니다.

헌법 분류기 기술은 모든 주제에 적용할 수 있을 만큼 유연하지만, 앤트로픽은 화학무기 관련 쿼리에 초점을 맞춰 프레젠테이션을 진행하기로 했습니다.

사용자에게 탈옥을 시도하도록 유도하는 것은 중요한 보안 목적에 부합합니다. Anthropic은 논문을 위해 수행한 테스트 범위를 넘어 실제 조건에서 시스템을 스트레스 테스트하기를 원했습니다. 이를 통해 Anthropic은 더 많은 데이터를 수집하고 방법의 견고성을 개선한 후 향후 Anthropic의 프로덕션 시스템에 배포할 수 있습니다.

데모 에 게시됩니다. 2025년 2월 3일 까지 2025년 2월 10일 Anthropic은 탈옥이 진행되는 동안 이 자료를 온라인에 공개할 것입니다. 여기에는 성공적인 탈옥을 신고할 수 있는 피드백 양식과 참가자가 준수해야 하는 Anthropic의 책임 있는 공개 정책에 대한 정보가 포함되어 있으며, Anthropic은 데모의 성공 여부와 일반적인 결과를 이 게시물에 업데이트하여 발표할 예정입니다.

업데이트 2025년 2월 5일: 위에서 언급한 바와 같이, 이제 Anthropic 시스템 탈옥에 성공하면 금전적 보상을 제공합니다. 탈옥 데모의 8개 레벨을 모두 통과한 첫 번째 사람에게 미화 10,000달러가 주어집니다. 일반 탈옥 전략을 사용하여 8개의 레벨을 모두 통과한 첫 번째 사람은 20,000달러를 받게 됩니다. 보상 및 관련 조건에 대한 자세한 내용은 HackerOne에서 확인하세요.