Petri - Anthropic의 오픈 소스 AI 보안 감사 프레임워크

25.4K 00

페트리란 무엇인가요?

페트리, 네. 인류학 AI 모델의 보안 및 동작 정렬을 체계적으로 평가하기 위해 개발된 오픈 소스 AI 보안 감사 프레임워크입니다. 실제 시나리오를 시뮬레이션하여 자동화된 감사자가 대상 모델과 여러 차례 대화를 나누고 심사 에이전트가 여러 차원에서 모델의 행동을 점수화하며, Petri는 광범위한 모델 API를 지원하고 기만, 아첨, 유해한 요청에 협조하는 등의 고위험 시나리오를 다루는 풍부한 시드 명령어 세트를 제공합니다. 14개의 최첨단 모델을 대상으로 테스트를 실시한 결과, 모든 모델이 시나리오에 따라 다양한 수준의 보안 정렬 위험을 가지고 있는 것으로 나타났습니다.

페트리의 특징

자동화된 감사사용자와 도구, 대상 AI 시스템 간의 여러 차례의 대화를 시뮬레이션하여 모델 동작을 자동으로 평가합니다.
다차원 채점보안 관련 차원에 초점을 맞춘 모델 행동에 대한 다차원 분석입니다.
시드 명령 지원연구자가 신속하게 테스트를 시작할 수 있도록 광범위한 고위험 시나리오를 다루는 다양한 시드 지침 세트를 제공합니다.
모델 호환성다양한 주류 모델 API를 지원하여 다양한 모델에서 쉽게 테스트할 수 있습니다.
결과 시각화명확한 테스트 결과와 점수를 제공하여 연구자가 모델의 잠재적 위험을 신속하게 파악할 수 있도록 도와줍니다.
오픈 소스 및 확장 가능이 코드는 오픈 소스이므로 연구자가 필요에 따라 쉽게 커스터마이징하고 확장할 수 있습니다.

Petri의 핵심 강점

자동화 및 효율성감사 프로세스를 자동화함으로써 Petri는 대량의 테스트 결과를 신속하게 생성하여 평가의 효율성을 크게 개선하고 시간과 인건비를 절약할 수 있습니다.
종합적이고 다차원적인 평가스푸핑, 그루밍, 자체 보호 등과 같은 광범위한 고위험 행동을 포괄하는 AI 모델의 다차원 보안 평가를 지원하여 포괄적인 보안 분석을 제공합니다.
유연성 및 확장성API는 다양한 모델을 지원하므로 연구자가 다양한 연구 요구에 맞게 테스트 시나리오를 쉽게 확장하고 사용자 지정할 수 있습니다.
오픈 소스 및 커뮤니티 지원오픈 소스 도구인 Petri는 연구자들이 테스트 결과를 공유하고 코드를 개선하며 기술 교류와 발전을 도모할 수 있는 활발한 커뮤니티의 지원을 받고 있습니다.
체계적이고 표준화된연구자들이 재현 가능하고 비교 가능한 테스트 벤치마크를 설정하고 AI 보안 연구의 표준화된 개발을 촉진할 수 있도록 체계적인 테스트 프레임워크와 표준화된 평가 프로세스를 제공합니다.

페트리의 공식 웹사이트는 무엇인가요?

공식 웹사이트 주소:: https://www.anthropic.com/research/petri-open-source-auditing
깃허브 리포지토리:: https://github.com/safety-research/petri

페트리는 누구를 위한 서비스인가요?

AI 연구원페트리를 통해 체계적으로 테스트하고 분석한 AI 모델의 보안, 신뢰성 및 행동 정렬을 조사합니다.
모델 개발자대규모 언어 모델 또는 기타 AI 시스템을 개발하는 엔지니어는 Petri를 사용하여 모델의 안전성과 성능을 평가하고 최적화합니다.
보안 전문가AI 기술의 잠재적 위험을 우려하는 전문가들은 Petri를 사용하여 모델로 인해 발생할 수 있는 보안 위협을 식별하고 예방합니다.
기술 평가 팀AI 시스템 평가 및 감사를 담당하는 기업 또는 조직 팀으로, 표준화된 보안 평가를 위해 Petri를 활용합니다.
학술 연구자AI 보안 분야의 학술 연구에 종사하는 학자들이 페트리를 통해 이론과 실무를 발전시키기 위한 실험과 연구를 수행합니다.