Cisco의 DeepSeek에 대한 보안 위험 평가: 100% 빈손으로 잡힌 모델...

36.8K 00

최근 중국의 AI 스타트업 DeepSeek 새로운 추론 모델 도입 DeepSeek R1 뛰어난 성능으로 많은 주목을 받고 있습니다. 하지만 최근 보안 평가 결과, DeepSeek R1은 100%의 성공률로 악성 공격에 사실상 무방비 상태이며, 이는 잘 설계된 악성 힌트가 보안 메커니즘을 우회하여 유해한 콘텐츠를 생성하도록 유도할 수 있다는 충격적인 사실이 드러났습니다. 이 발견은 DeepSeek R1의 보안에 대한 경각심을 일깨워줄 뿐만 아니라 현재 AI 모델의 보안에 대한 일반적인 우려를 불러일으킵니다. 이 백서에서는 DeepSeek R1의 보안 취약점을 살펴보고 다른 최신 모델과 비교하여 그 원인과 잠재적 위험을 분석합니다.

--DeepSeek 및 기타 최첨단 추론 모델의 보안 위험 평가

이 독창적인 연구는 현재 Cisco의 일부인 Robust Intelligence와 펜실베니아 대학교의 AI 보안 연구원들(Yaron Singer, Amin Karbasi, Paul Kassianik, Mahdi Sabbaghi, Hamed Hassani, George Pappas 포함)이 긴밀하게 협력한 결과물입니다. 하메드 하사니와 조지 파파스).

요약

이 백서에서는 DeepSeek R1 중국 AI 스타트업 딥시크의 새로운 첨단 추론 모델인 딥시크의 취약점은 고급 추론 능력과 비용 효율적인 훈련 방법으로 전 세계적으로 주목을 받고 있습니다. 고급 추론 기능과 비용 효율적인 학습 방법으로 전 세계적으로 주목을 받고 있습니다. 성능은 다음과 비교할 수 있지만 OpenAI o1 및 기타 최신 모델과 비교할 수 있지만 보안 평가에 따르면 심각한 보안 결함.

우리 팀은 다음을 사용합니다. 알고리즘 탈옥 기법딥시크 R1은 다음과 같이 적용되었습니다. 자동 공격 방법의 데이터를 사용하여 HarmBench 데이터 세트 50개의 무작위 프롬프트에 대해 테스트했습니다. 테스트 대상 프롬프트는 다음과 같습니다. 유해한 행동의 6가지 범주사이버 범죄, 허위 정보, 불법 활동 및 일반적인 위험을 포함합니다.

결과는 충격적이었습니다:DeepSeek R1의 공격 성공률은 100%입니다.로, 유해한 신호를 차단하지 못했다는 의미입니다. 이는 적어도 부분적인 저항을 보이는 다른 주요 모델과 대조적입니다.

조사 결과에 따르면 비용 효율적인 교육 방법에 대한 DeepSeek의 주장( 집중 학습및사고 체인 자가 평가 노래로 응답 증류) 보안 메커니즘이 손상되었을 수 있습니다. 다른 최신 모델에 비해 DeepSeek R1은 강력한 가드레일이 부족하여 다음에 매우 취약합니다. 알고리즘 탈옥(컴퓨팅) 잠재적 남용의 영향

저희는 후속 보고서세부 정보 추론 모델의 알고리즘 탈옥 발전하고 있습니다. 저희의 연구는 AI 개발의 중요성을 강조합니다. 엄격한 보안 평가 효율성과 추론의 획기적인 발전이 보안의 대가를 치르지 않도록 해야 한다는 시급한 필요성을 강조합니다. 또한, 기업에서 다음 사항의 중요성을 재확인합니다. 타사 펜싱 이러한 가드레일은 AI 애플리케이션에서 일관되고 안정적인 보안을 제공합니다.

개요

지난주 헤드라인의 중심에는 중국의 AI 스타트업 DeepSeek가 개발한 새로운 추론 모델인 DeepSeek R1이 있었습니다. 이 모델과 벤치마크에서의 인상적인 성능은 AI 커뮤니티뿐만 아니라 전 세계의 관심을 끌었습니다.

딥서치 R1을 분석하고 글로벌 AI 혁신에 미치는 영향에 대해 추측하는 언론 보도를 많이 보았습니다. 하지만 이 모델의 보안에 대한 논의는 많지 않았습니다. 그래서 저희는 안전성과 보안 상태를 더 잘 이해하기 위해 AI 방어 알고리즘 취약성 테스트와 유사한 접근 방식을 사용하여 DeepSeek R1을 테스트하기로 결정했습니다.

이 블로그에서는 세 가지 주요 질문에 답해 드립니다: DeepSeek R1이 중요한 모델인 이유는 무엇인가요? DeepSeek R1의 취약점을 이해하는 것이 중요한 이유는 무엇인가요? 마지막으로, 다른 최첨단 모델과 비교했을 때 DeepSeek R1은 얼마나 안전한가요?

DeepSeek R1이란 무엇이며 왜 중요한 모델인가요?

지난 몇 년 동안 비용 효율적이고 계산적인 발전에도 불구하고 현재의 최첨단 AI 모델은 구축 및 학습에 수억 달러와 상당한 계산 리소스가 필요합니다. 딥시크의 모델은 리소스의 일부만 사용하면서도 최첨단 모델과 비슷한 결과를 보여줍니다.

특히 강화 학습으로만 학습된 것으로 알려진 DeepSeek R1-Zero와 지도 학습을 사용해 R1-Zero를 개선한 DeepSeek R1의 최근 릴리즈는 은 고급 추론 기능을 갖춘 LLM 개발에 집중하고 있음을 보여줍니다.그들의 연구 는 수학, 코딩, 과학적 추론과 같은 작업에서 OpenAI o1 모델에 필적하는 성능을 보였으며, 그보다 더 뛰어난 성능을 보여주었습니다. Claude 3.5 소네트 및 ChatGPT-4o. 특히 딥시크 R1의 훈련 비용은 약 600만 달러로 OpenAI와 같은 기업이 수십억 달러를 투자하는 것에 비하면 매우 적은 비용으로 알려져 있습니다.

딥서치 모델 학습의 명시된 차이점은 다음 세 가지 원칙으로 요약할 수 있습니다:

사고 사슬을 통해 모델이 자신의 성과를 자체 평가할 수 있습니다.
강화 학습을 통해 모델 스스로 학습하는 방법
증류는 더 광범위한 액세스를 위해 기존 대규모 모델(671억 개 파라미터)에서 더 작은 모델(15억~700억 개 파라미터)을 개발할 수 있도록 지원합니다.

사고사슬 힌트를 사용하면 AI 모델이 복잡한 문제를 작은 단계로 세분화할 수 있는데, 이는 인간이 수학 문제를 풀 때 자신의 작업을 보여주는 방식과 유사합니다. 이 접근 방식은 모델이 최종 답과 무관하게 중간 계산을 수행할 수 있는 '스테이징 영역'과 결합됩니다. 이 과정에서 모델이 실수를 하면 이전에 올바른 단계로 되돌아가서 다른 접근 방식을 시도할 수 있습니다.

또한 강화 학습 기법은 최종 정답뿐만 아니라 정확한 중간 단계를 생성한 모델에 대해서도 보상을 제공합니다. 이러한 방법은 세부적인 추론이 필요한 복잡한 문제에서 AI 성능을 크게 향상시킵니다.

증류는 큰 모델의 기능 대부분을 유지하면서 더 작고 효율적인 모델을 만드는 기술입니다. 이 기법은 큰 '교사' 모델을 사용하여 작은 '학생' 모델을 훈련시키는 방식으로 작동합니다. 이 과정을 통해 학생 모델은 교사 모델의 작업별 문제 해결 능력을 복제하는 방법을 배우면서 더 적은 컴퓨팅 리소스를 필요로 합니다.

DeepSeek는 사고 체인 큐잉과 보상 모델링을 증류와 결합하여 추론 작업에서 기존의 대규모 언어 모델(LLM)을 훨씬 능가하는 모델을 생성하는 동시에 높은 운영 효율성을 유지합니다.

딥시크릿의 취약점에 대해 알아야 하는 이유는 무엇인가요?

DeepSeek의 패러다임은 새로운 것입니다. OpenAI의 o1 모델이 도입된 이후 모델 제공업체들은 추론 기능을 갖춘 모델을 구축하는 데 집중해 왔습니다. o1 이후 LLM은 사용자와의 지속적인 상호작용을 통해 적응형 방식으로 작업을 완료할 수 있었습니다. 그러나 DeepSeek R1 개발팀은 값비싼 수동 라벨링 데이터 세트나 대규모 컴퓨팅 리소스에 의존하지 않고도 높은 성능을 보여주었습니다.

딥시크의 모델 성능이 AI 분야에 큰 영향을 미쳤다는 것은 의심할 여지가 없습니다. 성능에만 초점을 맞추기보다는 딥시크와 새로운 추론 패러다임이 안전과 보안 측면에서 중요한 트레이드오프가 없는지 이해하는 것이 중요합니다.

다른 프론티어 모델과 비교했을 때 DeepSeek는 얼마나 안전한가요?

방법론

여러 인기 있는 프론티어 모델과 두 가지 추론 모델인 DeepSeek R1 및 OpenAI O1-프리뷰에 대해 안전 및 보안 테스트를 수행했습니다.

이러한 모델을 평가하기 위해 인기 있는 HarmBench 벤치마크에서 균등하게 샘플링된 50개의 단서를 대상으로 자동 탈옥 알고리즘을 실행했습니다.HarmBench 사이버 범죄, 허위 정보, 불법 활동, 일반 피해 등 7가지 피해 범주를 포함하여 총 400가지의 행동을 벤치마킹했습니다.

주요 지표는 탈옥이 탐지된 비율을 측정하는 공격 성공률(ASR)입니다. 이는 탈옥 시나리오에서 사용되는 표준 지표로, 이번 평가에 사용한 지표입니다.

가장 보수적인 설정인 온도 0으로 대상 모델을 샘플링했습니다. 이를 통해 생성된 공격의 재현성과 충실도를 보장할 수 있습니다.

거부 감지를 위해 자동화된 방법을 사용하고 탈옥을 확인하기 위해 수동 감독을 실시합니다.

결국

딥서치 R1의 트레이닝 예산은 다른 첨단 모델 제공업체가 모델 개발에 지출하는 비용의 일부에 불과하다고 합니다. 하지만 안전과 보안이라는 다른 대가를 치러야 합니다.

저희 연구팀은 100%의 공격 성공률로 DeepSeek R1을 탈옥하는 데 성공했습니다. 이는 HarmBench 세트에서 DeepSeek R1에서 긍정적인 답변을 얻지 못한 힌트가 하나도 없었다는 것을 의미합니다. 이는 모델 가드레일을 통해 대부분의 적대적 공격을 차단하는 다른 최첨단 모델(예: O1)과는 대조적인 결과입니다.

아래 차트는 전체 결과를 보여줍니다.

아래 표는 각 모델이 다양한 위험 범주의 신호에 어떻게 반응하는지를 잘 보여줍니다.

알고리즘 탈옥과 추론에 대한 참고 사항입니다: 이 분석은 로버스트 인텔리전스(현재 Cisco의 일부)의 고급 AI 연구팀이 펜실베니아 대학교의 연구진과 협력하여 수행했습니다. AI Defense 제품에 사용된 것과 유사한 완전한 알고리즘 검증 방법론을 사용하여 이 평가의 총 비용은 50달러 미만이었습니다. 또한, 이 알고리즘 접근 방식은 작년에 입증한 기능을 뛰어넘는 추론 모델에 적용되었습니다. 가지치기를 통한 공격의 나무(TAP) 기능에 대해 설명합니다. 후속 논문에서는 알고리즘 탈옥 추론 모델의 이 새로운 기능에 대해 더 자세히 논의할 예정입니다.