9가지 주요 빅 모델 보안 프레임워크에 대한 심층 분석 및 비교

41.4K 00

대규모 언어 모델링 기술이 빠르게 발전하고 광범위하게 적용됨에 따라 잠재적인 보안 위험에 대한 업계의 관심이 점점 더 커지고 있습니다. 이러한 문제를 해결하기 위해 전 세계 유수의 기술 기업, 표준화 기관 및 연구 기관에서 자체 보안 프레임워크를 구축하여 발표하고 있습니다. 본 백서에서는 관련 분야 실무자들에게 명확한 참고자료를 제공하기 위해 대표적인 대형 모델 보안 프레임워크 9개를 분류하고 분석합니다.

九大主流大模型安全框架深度剖析与对比
그림: 빅 모델 보안 프레임워크 개요

Google의 보안 AI 프레임워크(SAIF)(2025.04 출시)

九大主流大模型安全框架深度剖析与对比
그림: Google SAIF 프레임워크 구조

Google에서 도입한 보안 AI 프레임워크(SAIF)는 AI 시스템의 보안을 이해하고 관리하기 위한 구조화된 접근 방식을 제공합니다. 이 프레임워크는 AI 시스템을 데이터, 인프라, 모델, 애플리케이션의 네 가지 계층으로 꼼꼼하게 나눕니다. 각 계층은 데이터 소스, 데이터 필터링 및 처리, 학습 데이터 등의 주요 부분을 포함하는 데이터 계층과 같은 다양한 구성 요소로 더 세분화됩니다. SAIF는 이러한 각 부분마다 특정 위험과 위험이 내재되어 있음을 강조합니다.

SAIF는 AI 시스템의 전체 수명 주기를 기반으로 데이터 중독, 학습 데이터에 대한 무단 액세스, 모델 소스 변조, 과도한 데이터 처리, 모델 유출, 모델 배포 변조, 모델 서비스 거부, 모델 리버스 엔지니어링, 안전하지 않은 구성 요소, 큐 워드 삽입, 모델 스크램블링, 민감한 데이터 유출, 추정을 통한 민감한 데이터 액세스, 불안전한 모델 출력, 안전하지 않은 모델 출력, 악의적인 행동. 이러한 15가지 위험에 대응하기 위해 SAIF는 핵심 보안 지침을 구성하는 15가지 예방 및 제어 조치도 제안합니다.

빅 모델 애플리케이션을 위한 OWASP의 10대 보안 위협(2025.03 릴리스)

九大主流大模型安全框架深度剖析与对比
그림 : OWASP 빅 모델 애플리케이션의 상위 10가지 보안 위협

사이버 보안 분야의 주요 단체인 오픈 월드 애플리케이션 보안 프로젝트(OWASP)에서도 빅 모델 애플리케이션에 대한 대표적인 10대 보안 위협 목록을 발표했습니다. OWASP는 빅 모델 애플리케이션을 빅 모델 서비스 자체, 타사 기능, 타사 기능 플러그인, 비공개 데이터베이스, 외부 교육 데이터 등 몇 가지 주요 "신뢰 도메인"으로 구성합니다. 이 조직은 이러한 신뢰 도메인 간의 상호 작용과 신뢰 도메인 내에서 여러 보안 위협을 식별합니다.

OWASP의 가장 중요한 10대 보안 위협은 프롬프트 인젝션, 민감한 정보 유출, 공급망 위험, 데이터 및 모델 중독, 부적절한 출력 처리, 권한 초과, 시스템 프롬프트 유출, 벡터 및 임베딩 취약점, 잘못된 정보, 무제한 리소스 소비 등입니다(영향력 순서대로). 이러한 각 위협에 대해 OWASP는 예방 및 제어를 위한 권장 사항을 제공하여 개발자와 보안 담당자를 위한 실질적인 지침을 제공합니다.

OpenAI의 모델 안전 프레임워크(지속적 업데이트)

九大主流大模型安全框架深度剖析与对比
그림 : OpenAI 모델 보안 프레임워크 차원

빅 모델 기술의 선두주자인 OpenAI는 모델의 보안에 높은 우선순위를 두고 있습니다. 모델 보안 프레임워크는 잠재적 피해 수준에 따라 낮음, 중간, 높음, 심각으로 분류되는 대량살상무기(CBRN) 위험, 사이버 공격 능력, 설득력(모델이 사람의 의견과 행동에 영향을 미치는 능력), 모델 자율성의 네 가지 차원을 기반으로 합니다. 각 모델을 출시하기 전에 이 프레임워크에 따라 시스템 카드라고 하는 상세한 보안 평가를 제출해야 합니다.

또한 OpenAI는 가치 정렬, 적대적 평가, 제어 반복을 포함하는 거버넌스 프레임워크를 제안합니다. 가치 정렬 단계에서 OpenAI는 인간의 보편적 가치와 일치하는 일련의 모델 동작을 공식화하고 모델 학습의 모든 단계에서 데이터 정리 작업을 안내합니다. 적대적 평가 단계에서 OpenAI는 보호 조치를 취하기 전과 후에 모델을 완전히 테스트하기 위한 전문 테스트 케이스를 구축하고 최종적으로 시스템 카드를 생성합니다. 제어 반복 단계에서 OpenAI는 이미 배포된 모델에 대해 일괄 실행 전략을 채택하고 보호 조치를 계속 추가하고 최적화합니다.

사이버 보안 표준 위원회를 위한 AI 보안 거버넌스 프레임워크(2024.09 발표)

九大主流大模型安全框架深度剖析与对比
그림 : 인터넷 보안 표준 위원회 AI 보안 거버넌스 프레임워크

국가 사이버 보안 표준화 기술 위원회(NCSSTC)에서 발표한 인공지능 안전 거버넌스 프레임워크는 인공지능의 안전한 개발을 위한 거시적 지침을 제공하는 것을 목표로 합니다. 이 프레임워크는 AI 보안 위험을 내생적(자체) 보안 위험과 애플리케이션 보안 위험의 두 가지 주요 범주로 구분합니다. 내생적 안전 위험은 모델 자체에 내재된 위험을 말하며, 주로 모델 알고리즘 안전 위험, 데이터 안전 위험, 시스템 안전 위험을 포함합니다. 반면 애플리케이션 안전 위험은 모델이 적용되는 과정에서 발생할 수 있는 위험을 말하며 네트워크 영역, 현실 영역, 인지 영역, 윤리적 영역의 네 가지 측면으로 다시 세분화됩니다.

이러한 식별된 위험에 대응하여 프레임워크는 모델 및 알고리즘 개발자, 서비스 제공자, 시스템 사용자 및 기타 관련 당사자가 학습 데이터, 연산 기능, 모델 및 알고리즘, 제품 및 서비스, 응용 시나리오 등 다양한 측면에서 이를 방지하기 위한 기술적 조치를 적극적으로 취해야 한다고 명확하게 지적합니다. 동시에 이 프레임워크는 기술 연구 개발 기관, 서비스 제공업체, 사용자, 정부 부처, 산업 협회 및 사회 단체가 참여하는 AI 보안 위험에 대한 포괄적인 거버넌스 시스템의 구축과 개선을 옹호합니다.

사이버 보안 표준 위원회의 인공지능 보안 표준 시스템 V1.0(2025.01 출시)

九大主流大模型安全框架深度剖析与对比
그림: 인터넷 보안 표준 위원회 인공지능 보안 표준 시스템 V1.0

앞서 언급한 인공지능 보안 거버넌스 프레임워크의 지원과 이행을 위해 방송통신위원회는 관련 인공지능 보안 위험을 예방하고 해결할 수 있는 주요 표준을 체계적으로 정리하고, 기존 사이버 보안 국가 표준 체계와의 효과적인 연계를 위해 인공지능 보안 표준체계 V1.0을 추가로 발표했습니다.

이 표준 시스템은 크게 기본 공통성, 안전 관리, 핵심 기술, 시험 및 평가, 제품 및 애플리케이션의 다섯 가지 핵심 부분으로 구성됩니다. 이 중 핵심 안전 관리 부분에서는 모델 알고리즘 안전, 데이터 안전, 시스템 안전, 개발 안전, 애플리케이션 안전, 운영 안전, 공급망 안전을 다룹니다. 반면 핵심 기술 부문에서는 생성형 AI 안전, 지능형 신체 안전, 구현형 지능 안전(로봇 등 물리적 실체와 상호작용하는 AI를 말함), 다중 모드 안전, 생성 합성 안전, 안전 정렬, 안전 펜싱 등 첨단 분야를 중점적으로 다룹니다.

칭화대학교, 중관춘 연구소 및 앤트 그룹의 빅 모델 보안 관행 2024(2024.11 출시)

九大主流大模型安全框架深度剖析与对比
그림 : 빅 모델 보안 관행 2024 프레임워크

칭화대학교, 중관춘 연구소, 앤트 그룹이 공동으로 발표한 '빅 모델 보안 실무 2024' 보고서는 산학연 통합의 관점에서 빅 모델 보안에 대한 통찰력을 제공합니다. 이 보고서에서 제안하는 빅 모델 보안 프레임워크는 크게 5가지로 구성되어 있습니다: '사람 중심, 선을 위한 AI'라는 기본 원칙, 안전하고 신뢰할 수 있으며 제어 가능한 빅 모델 보안 기술 시스템, 보안 측정 및 방어 기술, 엔드투엔드, 에지투에지, 클라우드 협업 보안 기술 구현, 여러 산업에서의 적용 사례.

이 보고서는 데이터 유출, 데이터 도난, 데이터 중독, 적대적 공격, 명령 공격(잘 설계된 명령을 통해 모델의 의도하지 않은 동작 유도), 모델 탈취 공격, 하드웨어 보안 취약성, 소프트웨어 보안 취약성, 프레임워크 자체의 보안 문제, 외부 도구로 인한 보안 위험, 유독 콘텐츠 생성, 편향된 콘텐츠 유포, 가짜 정보 생성, 이념적 위험, 통신 사기 및 신원 도용, 지적 재산권 및 저작권 침해, 교육 산업의 무결성 위기, 편견으로 인한 공정성 문제 등이 있습니다. 이 보고서는 이러한 복합적인 위험에 대응하기 위한 방어 기술도 제안합니다.

알리윤과 ICTA의 빅 모델 보안 연구 보고서(2024.09 발행)

九大主流大模型安全框架深度剖析与对比
그림: 알리윤 & ICTA 빅모델 보안 연구 보고서 프레임워크

알리윈과 중국정보통신기술학회(CAICT)가 공동으로 발표한 빅 모델 보안 연구 보고서는 빅 모델 기술의 발전 경로와 현재 직면한 보안 과제를 체계적으로 설명합니다. 이러한 과제에는 주로 데이터 보안 위험, 알고리즘 모델 보안 위험, 시스템 플랫폼 보안 위험, 비즈니스 애플리케이션 보안 위험이 포함됩니다. 이 보고서는 빅 모델 보안의 연구 범위를 모델 자체의 보안에서 빅 모델 기술을 사용하여 기존 네트워크 보안 보호 기능을 강화하고 강화하는 방법까지 확장하고 있다는 점에 주목할 필요가 있습니다.

이 보고서는 모델 자체의 보안 측면에서 보안 목표, 보안 속성, 보호 대상, 보안 조치의 네 가지 차원을 포함하는 프레임워크를 구축합니다. 이 중 보안 조치는 학습 데이터, 모델 알고리즘, 시스템 플랫폼, 비즈니스 애플리케이션의 네 가지 핵심 측면을 중심으로 하여 전방위적인 보호 아이디어를 반영합니다.

텐센트 연구소의 빅 모델 보안 및 윤리 연구 2024(2024.01 발표)

九大主流大模型安全框架深度剖析与对比
그림: 텐센트 연구소의 빅 모델 보안 및 윤리 연구 문제

텐센트 연구소가 발표한 '빅 모델 보안 및 윤리 연구 2024' 보고서는 빅 모델 기술의 동향과 이러한 동향이 보안 업계에 주는 기회와 도전에 대한 심층적인 분석을 제공합니다. 이 보고서에는 데이터 유출, 데이터 중독, 모델 변조, 공급망 중독, 하드웨어 취약성, 구성 요소 취약성, 플랫폼 취약성 등 15가지 주요 위험이 나열되어 있습니다. 한편, 이 보고서는 신속한 보안 평가, 빅 모델 청군 공격 및 방어 연습, 빅 모델 소스 코드 보안 보호 사례, 빅 모델 인프라 취약점 보안 보호 체계 등 4가지 빅 모델 보안 모범 사례를 공유합니다.

이 보고서는 또한 빅 모델 가치 정렬의 진행 상황과 향후 동향을 강조합니다. 이 보고서는 빅 모델의 기능과 행동이 인간의 가치, 진정한 의도, 윤리적 원칙에 부합하도록 보장하여 인간과 AI 간의 협업 과정에서 안전과 신뢰를 보호하는 방법이 빅 모델 거버넌스의 핵심 주제가 되었다고 지적합니다.

360의 빅 모델 보안 솔루션(지속적 업데이트)

九大主流大模型安全框架深度剖析与对比
그림: 360 빅 모델 보안 솔루션 구성도

치후 360은 대형 모델 보안 분야도 적극적으로 개척하고 보안 솔루션을 제시했습니다.360은 대형 모델의 보안 위험을 시스템 보안 위험, 콘텐츠 보안 위험, 신뢰할 수있는 보안 위험, 제어 가능한 보안 위험의 네 가지 범주로 요약합니다. 이 중 시스템 보안은 주로 빅 모델 생태계에서 다양한 유형의 소프트웨어 보안을, 콘텐츠 보안은 입력 및 출력 콘텐츠의 규정 준수 위험에, 신뢰할 수 있는 보안은 모델의 '환상' 문제(즉, 모델이 합리적으로 보이지만 실제가 아닌 정보를 생성하는 문제) 해결에, 제어 가능한 보안은 보다 복잡한 에이전트 프로세스 보안 문제를 다루고 있습니다. 제어 가능한 보안은 보다 복잡한 상담원 프로세스 보안 문제를 다룹니다.

360은 대형 모델이 다양한 산업 분야에서 안전하고 신뢰할 수 있으며 제어할 수 있도록 대형 모델 분야에서 축적된 자체 역량을 바탕으로 일련의 대형 모델 보안 제품을 구축했습니다. 이러한 제품에는 LLM 생태계의 취약점 탐지를 주 목적으로 하는 '360 스마트 포렌식', 대형 모델의 콘텐츠 보안에 중점을 둔 '360 스마트 쉴드', 신뢰할 수 있는 보안을 보장하는 '360 스마트 서치'가 있습니다. 360스마트서치". 이러한 제품들의 조합을 통해 360은 비교적 성숙한 대형 모델용 보안 솔루션 세트를 조기에 구축했습니다.