AI 필터의 보안 허점 발견하기: 제한을 우회하기 위한 문자 코드 사용에 대한 심층 연구

37.7K 00

선물(직업 등)

다른 많은 사람들과 마찬가지로, 지난 며칠 동안 제 뉴스 트윗은 중국산 제품에 대한 이야기로 가득했습니다. DeepSeek-R1 지난 주 출시된 빅 언어 모델에 대한 뉴스, 칭찬, 불만, 추측이 쏟아지고 있습니다. 이 모델 자체는 OpenAI, Meta 등의 최고의 추론 모델과 비교되고 있습니다. 다양한 벤치마크에서 경쟁력이 있는 것으로 알려지면서 AI 커뮤니티에서 우려를 불러일으켰는데, 특히 DeepSeek-R1은 경쟁사에 비해 훨씬 적은 리소스를 사용해 학습된 것으로 알려졌습니다. 이로 인해 보다 비용 효율적인 AI 개발의 가능성에 대한 논의가 이어졌습니다. 그 의미와 연구에 대한 더 광범위한 논의가 있을 수 있지만 이 백서의 초점은 여기에 있지 않습니다.

오픈 소스 모델, 독점 채팅 애플리케이션

모델 자체는 자유 MIT 라이선스에 따라 출시되었지만, 이 모델에 대한 DeepSeek 자체 AI 채팅 애플리케이션과 함께 제공되는 애플리케이션을 실행하려면 계정이 필요합니다. 대부분의 사람들에게 이것이 DeepSeek의 진입점이기 때문에 이 글에서 팁 주입의 초점이 여기에 맞춰져 있습니다. 결국, 고도로 상용화되었지만 제한적인 새로운 AI 채팅 제품을 보는 것은 매일 있는 일이 아닙니다. ......

팁 및 응답 검토

DeepSeek는 중국에서 만들어졌기 때문에 당연히 답변을 생성할 수 있는 항목에 상당히 엄격한 제한이 있습니다. DeepSeek-R1이 민감한 중국 주제와 관련된 프롬프트를 검열한다는 보도가 나오면서 신뢰성과 투명성에 대한 의문이 제기되었고 호기심을 불러일으켰습니다. 예를 들어 다음을 생각해 보세요:

DeepSeek-R1 모델은 내장된 검열 메커니즘으로 인해 민감한 이슈에 대한 토론을 피합니다. 이는 이 모델이 특정 민감한 주제에 대해 논의하는 것에 대한 엄격한 규칙이 있는 중국에서 개발되었기 때문입니다. 사용자가 이러한 주제에 대해 질문하면 이 모델은 일반적으로 "죄송합니다, 이 주제는 현재 제 범위를 벗어납니다. 다른 주제로 이야기해 봅시다"와 같은 답변이 돌아옵니다.

큐 인젝션

이 새로운 서비스에 대한 인젝션을 유도하려고 합니다. 위협 모델링 관점에서 볼 때 이 상호작용 패턴은 정확히 무엇인가요? 제 생각에는 LLM 모델 내부에서 직접 검열 규칙을 학습했을 가능성은 낮다고 생각합니다. 즉, 많은 상용 AI 제품과 마찬가지로 대화의 입력 또는 출력 단계에서 필터링했을 가능성이 높습니다:

DeepSeek의 가능한 구성 요소 상호 작용을 보여주는 위협 모델

이는 방화벽, 콘텐츠 필터, 검열 등 다양한 필터에서 자주 볼 수 있는 패턴입니다. 이러한 시스템은 특정 유형의 콘텐츠를 차단하거나 정리하도록 설계되었지만 일반적으로 미리 정의된 규칙과 패턴에 의존합니다. 클리너를 우회하기 위해 입력과 출력을 조작할 수 있는 방법이 있어야 하는 웹 애플리케이션 방화벽(WAF)과 비슷하다고 생각하면 됩니다. DeepSeek의 경우 검열 메커니즘이 모델 자체에 내장되어 있지 않고 입력 또는 출력에 대한 클린업 레이어로 적용된다고 가정하고 있습니다. 이는 WAF가 입력 필드에서 웹 트래픽을 검사하고 필터링하는 방식과 유사합니다. 문제는 이러한 필터를 우회할 수 있는 모델과 통신할 수 있는 방법을 찾는 것입니다.

문자 코드

몇 가지 실험 끝에 이를 달성하는 가장 좋은 방법은 특정 문자 코드의 하위 집합을 사용하는 것임을 알게 되었습니다. 문자 코드 또는 캐릭터 코드는 문자 집합의 문자를 숫자로 표현하는 코드입니다. 예를 들어 ASCII(미국 표준 정보 교환 코드) 문자 세트에서 문자 'A'의 문자 코드는 65입니다. 이러한 숫자 코드를 사용하면 특정 단어나 문구를 차단하도록 설계된 필터에서 즉시 인식하지 못하는 방식으로 텍스트를 표현할 수 있습니다. 이 예에서는 공백으로 구분된 16진수(16진수) 문자 코드를 사용하고 있습니다. 즉, 각 문자는 공백으로 구분된 두 자리 16진수 숫자로 표시됩니다.

인젝션 공격 예시

이러한 문자 코드만 사용하여 딥서치에게 대화하라는 메시지를 표시하면 필터를 효과적으로 우회할 수 있습니다.

揭示 AI 过滤器中的安全漏洞：使用字符代码绕过限制的深入研究
제 입장에서는 문자 코드를 다시 읽을 수 있는 텍스트로 번역하고 그 반대의 경우도 마찬가지입니다. 이 접근 방식을 사용하면 모델과 제한 없이 대화할 수 있어 제한을 우회할 수 있습니다.

이 앞뒤 매핑을 쉽게 수행하는 방법은 적절한 기본 및 구분 기호를 선택할 수 있는 문자 인코딩에 CyberChef 공식을 사용하는 것입니다.

배운 교훈

이미 WAF 필터 및 방화벽과의 유사점에 대해 암시한 바 있습니다. 명시적으로 입력된 트래픽/콘텐츠만 검사해서는 안 되며, 특히 필터 양쪽의 콘텐츠에 변형을 사용할 수 있는 경우 특정 콘텐츠를 적용하고 가능한 경우 변형을 비활성화해야 합니다. 콘텐츠 필터링에 대해 보다 포괄적인 접근 방식을 취함으로써 더 광범위한 위협으로부터 더 효과적으로 보호하고 공격자가 보안 조치를 우회하는 새로운 방법을 개발하더라도 보안 조치가 계속 효과적으로 유지되도록 할 수 있습니다.

이 실험은 AI와 머신러닝 모델링의 핵심 측면, 즉 강력한 보안 조치의 중요성을 강조합니다. AI가 계속 진화하고 다양한 분야에 통합됨에 따라 잠재적인 취약성을 이해하고 완화하는 것이 중요해지고 있습니다. 문자 코드를 사용하여 필터를 우회하는 기능은 보안 조치를 지속적으로 업데이트하고 새로운 익스플로잇에 대해 테스트하는 것이 얼마나 중요한지 다시 한 번 일깨워줍니다.

향후 연구

앞으로 AI 개발자들이 이러한 종류의 문제를 어떻게 해결해 나갈지 지켜보는 것은 흥미로운 일이 될 것입니다. 더 정교한 필터링 메커니즘을 개발할까요, 아니면 검열을 모델에 직접 내장하는 새로운 방법을 찾을까요? 시간이 지나야 알 수 있습니다. 현재로서는 AI 기술 보안을 위한 지속적인 노력에 귀중한 교훈을 제공합니다.