Best-of-N 탈옥: 입력의 단순한 무작위 변형을 통해 주류 AI 시스템이 보안 제약을 뚫고 유해한 응답을 생성하도록 반복적으로 시도하는 행위입니다.

31.2K 00

최근 몇 년 동안 생성형 AI(GAI)와 대규모 언어 모델(LLM)이 빠르게 발전하면서 보안과 신뢰성 문제가 많은 주목을 받고 있습니다. 최근 한 연구에서는 새로운 유형의 AI인 Best-of-N 탈옥 (줄여서 BoN)을 간단하지만 효율적인 공격 방법으로 사용했습니다. 연구진은 입력 콘텐츠를 무작위로 변형하고 반복적으로 시도함으로써 여러 주요 AI 시스템의 보안 제한을 우회하여 유해하거나 부적절한 콘텐츠를 생성하도록 만드는 데 성공했습니다. 놀랍게도 이 방법의 공격 성공률은 70%에서 90%에 달해 현재 AI 보안 메커니즘의 심각한 취약성을 드러냈습니다.

BoN 접근 방식의 핵심 원칙

Best-of-N 탈옥 방법의 핵심 아이디어는 AI 모델의 내부 구조를 이해할 필요 없이 입력(텍스트, 이미지, 오디오)에 작은 변형을 반복적으로 수행하여 시스템의 보안 제약을 뚫을 수 있는 입력값을 점진적으로 찾아내는 것입니다. 이러한 변형에는 다음이 포함됩니다:

텍스트 입력 대소문자를 임의로 변경하거나, 문자를 재정렬하거나, 기호를 추가하는 등의 작업을 수행합니다.
이미지 입력 배경을 변경하고 다른 글꼴로 텍스트를 오버레이합니다.
오디오 입력 음정, 재생 속도를 조정하거나 배경 소음을 추가합니다.

Best-of-N 越狱法：对输入内容进行简单的随机变形并反复尝试，就能让主流 AI 系统突破安全限制产生有害回应

이러한 변형은 입력의 핵심 의미를 변경하지는 않지만 경우에 따라 AI 시스템에서 잘못된 응답을 유발할 수 있습니다. 연구진은 반복적인 시도를 통해 모델이 보안 규칙을 위반하는 콘텐츠를 생성하도록 유도하는 '최적의 변형' 입력을 찾을 수 있었습니다.

공격 성공 및 범위

연구팀은 BoN 방법론을 사용하여 여러 주요 AI 시스템을 테스트했으며, 그 결과 이러한 시스템이 일반적으로 이 간단한 공격에 높은 수준의 취약성을 보이는 것으로 나타났습니다. 예시:

GPT-4 89%의 입력 변형은 안전 한계를 초과할 수 있습니다.
Claude 3.5 : 78%의 모프 공격이 성공했습니다.
기타 주류 시스템 시스템마다 정확한 성공률은 다르지만 유사한 취약점이 나타납니다.

BoN 공격의 성공률은 무작위성과 확장성 덕분에 기존의 AI 탈옥 기법보다 훨씬 높습니다. 이 방법은 특히 생성 AI 작업에서 효과적이며, 이는 현재 AI 시스템의 보안 설계가 충분히 견고하지 않다는 것을 시사합니다.

공격 규모 및 예측 가능성

이 연구는 또한 공격 성공률이 시도 횟수(N-값)에 따라 거듭제곱 법칙으로 증가한다는 것을 보여줍니다. 즉, 샘플 수나 계산 능력이 증가하면 BoN 방식이 더 높은 공격 성공률을 달성할 수 있다는 것을 의미합니다. 이 속성을 통해 연구자들은 성공률을 정확하게 예측하여 특정 모델에 대한 공격 전략을 조정할 수 있습니다. 예시:

GPT-4의 경우, 20%의 시도 횟수를 늘리면 성공률이 10% 증가합니다.
BoN 공격과 다른 기법을 조합하여 사용하면 필요한 샘플과 시도 횟수를 줄이면서 성공률을 더욱 높일 수 있습니다.

이는 BoN 방식이 효율적일 뿐만 아니라 다른 공격 방법을 결합하여 더 빠르고 정확하게 돌파할 수 있는 확장성도 뛰어나다는 것을 보여줍니다.

BoN 접근 방식이 효과적인 이유는 무엇인가요?

연구원은 BoN 접근법의 성공 요인으로 다음과 같은 점을 꼽았습니다:

입력 변형은 모델의 안전성 평가 메커니즘을 방해합니다.대부분의 AI 시스템은 잠재적 위협을 식별하기 위해 특정 특징이나 입력 패턴에 의존합니다. BoN의 무작위 변형은 이러한 특징을 손상시켜 시스템이 입력이 안전하다고 잘못 판단하기 쉽게 만듭니다.
모델과의 상호작용의 블랙박스 특성BoN은 AI 모델의 내부 메커니즘에 대한 지식에 의존하지 않으며 공격을 수행하기 위해 시스템과의 외부 상호 작용만 필요합니다. 따라서 실제로 더 효율적으로 작동합니다.
크로스 모달 적용 가능성이 방법은 텍스트 입력에만 적용되는 것이 아니라 시각 언어 모델과 음성 처리 모델도 공격할 수 있습니다. 예를 들어, 연구진은 이미지에 텍스트를 추가하거나 오디오 파일의 속성을 조정하여 이러한 시스템의 보안 규칙을 우회할 수 있었습니다.

AI 보안에 대한 경각심

Best-of-N 탈옥 방법의 등장은 AI 시스템 보안에 대한 경각심을 일깨우고 있습니다. BoN 방법은 단순해 보이지만 놀라울 정도로 효과적인 공격으로 현재 AI 시스템의 보안 보호가 비전통적 위협에 매우 취약하다는 것을 보여줍니다.

연구진은 AI 개발자가 다음과 같은 방법으로 보안을 강화해야 한다고 제안합니다:

향상된 입력 견고성무작위 변형에 대해 더 엄격한 입력 유효성 검사 메커니즘을 설계하면 시스템이 우회될 가능성이 줄어듭니다.
공동 멀티모달 보호포괄적인 텍스트, 시각 및 오디오 평가를 결합하여 시스템의 전반적인 보안을 강화하세요.
고급 테스트 메커니즘 도입생성적 적대적 네트워크(GAN) 또는 기타 고급 기술을 사용하여 잠재적으로 악의적인 입력을 자동으로 식별합니다.

결론

Best-of-N 탈옥 방법의 연구 결과는 AI 기술 개발이 성능 향상에만 집중할 것이 아니라 보안과 신뢰성에도 직면해야 한다는 점을 상기시켜 줍니다. 보안 보호 메커니즘의 지속적인 개선을 통해서만 AI 시스템은 다양한 애플리케이션에서 진정으로 안전하고 신뢰할 수 있습니다.