NVIDIA Garak: LLM 취약점을 탐지하고 안전한 생성 AI를 위한 오픈 소스 도구

최신 AI 리소스9개월 전 업데이트 AI 공유 서클
1.8K 00

일반 소개

NVIDIA Garak은 대규모 언어 모델(LLM)의 취약점을 탐지하기 위해 특별히 설계된 오픈 소스 툴입니다. 정적, 동적, 적응형 프로빙을 통해 일루전, 데이터 유출, 힌트 삽입, 오류 메시지 생성, 유해 콘텐츠 생성 등과 같은 여러 약점이 있는지 모델을 검사하며, 사이버 보안의 nmap과 유사하지만 LLM의 보안 평가에 초점을 맞추고 있습니다.

관련 도구: https://github.com/msoedov/agentic_security

NVIDIA Garak:检测LLM漏洞的开源工具,确保生成式AI的安全性

 

기능 목록

  • 취약성 검사팬텀, 데이터 유출, 힌트 삽입 등 LLM의 다양한 잠재적 취약점을 탐지합니다.
  • 생성적 AI 평가다양한 맥락에서 생성 AI 모델의 성능 평가.
  • 대화 시스템 테스트다양한 입력에서 대화 시스템의 응답을 테스트하여 잠재적인 보안 문제를 파악합니다.
  • 다중 모델 지원허깅 페이스, OpenAI, 리플리케이트 및 기타 생성 모델을 지원합니다.
  • 명령줄 도구명령줄에서 작동하며 Linux 및 OSX 시스템에서 사용할 수 있습니다.
  • 로깅후속 분석 및 개선을 위한 스캔 프로세스 및 결과에 대한 자세한 기록.

 

도움말 사용

설치 프로세스

  1. 표준 설치::
    • 파이파이에서 pip를 사용하여 설치합니다:
      python -m pip install -U garak
      
  2. 개발 버전 설치::
    • GitHub에서 최신 버전을 받으세요:
      python -m pip install -U git+https://github.com/NVIDIA/garak.git@main
      
  3. 소스에서 복제::
    • Conda 환경을 만들고 종속 요소를 설치합니다:
      conda create --name garak "python>=3.10,<3.12"
      conda activate garak
      gh repo clone NVIDIA/garak
      cd garak
      python -m pip install -e .
      

사용법

  1. 기본 사용법::
    • Garak은 스캔할 모델을 알아야 하며 기본값은 해당 모델에 대해 알려진 모든 프로브를 사용합니다. 프로브 목록을 보려면 다음 명령을 사용하세요:
      garak --list_probes
      
    • 생성기 유형 및 모델 이름을 지정합니다:
      garak --model_type huggingface --model_name RWKV/rwkv-4-169m-pile
      
    • 특정 프로브를 실행합니다:
      garak --model_type openai --model_name gpt-3.5-turbo --probes encoding
      
  2. 결과 보기::
    • 각 프로브가 완료되면 Garak은 진행률 표시줄을 생성하고 완료 시 평가 결과를 출력합니다. 프로브 시도에서 잘못된 동작이 발생하면 응답이 실패로 표시되고 실패율이 제공됩니다.
  3. 로그 및 보고서::
    • 오류는 garak.log 파일에 기록되고 런타임 세부 정보는 .jsonl 파일에 기록됩니다. 분석/분석_로그.py 스크립트를 사용하여 분석할 수 있습니다.
  4. 일반적인 예::
    • 감지 ChatGPT 코드 인젝션 공격에 대한 취약성:
      export OPENAI_API_KEY="sk-123XXXXXXXXXXXX"
      python3 -m garak --model_type openai --model_name gpt-3.5-turbo --probes encoding
      
  5. 플러그인 개발::
    • 베이스 클래스를 상속하고 새 코드를 테스트하는 데 필요한 메서드를 재정의합니다:
      import garak.probes.mymodule
      p = garak.probes.mymodule.MyProbe()
      python3 -m garak -m test.Blank -p mymodule -d always.Pass
      
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...