Petri - AnthropicのオープンソースAIセキュリティ監査フレームワーク

26.4K 00

ペトリとは？

ペトリ、そうだね。アンソロピック AIモデルのセキュリティと振る舞いの整合性を体系的に評価するために開発された、オープンソースのAIセキュリティ監査フレームワークです。実世界のシナリオをシミュレートすることで、自動監査人は対象モデルと複数回の対話を行うことができ、その後、判定エージェントがモデルの振る舞いを多面的に採点します。Petriは幅広いモデルAPIをサポートし、欺瞞、お世辞、有害な要求への協力といったリスクの高いシナリオをカバーする豊富なシードコマンドのセットを提供します。テストは14の最先端モデルで実施され、すべてのモデルが異なるシナリオにおいて様々な程度のセキュリティアライメントリスクを持つことが判明した。

ペトリの特徴

自動監査ユーザーとツール、そしてターゲットとなるAIシステムとの対話を複数回シミュレートすることで、モデルの振る舞いを自動的に評価します。
多次元採点セキュリティに関連した次元に焦点を当てた、モデルの動作の多次元分析。
シード・コマンド対応研究者が迅速に試験を開始できるよう、高リスクのシナリオを幅広く網羅した多様なシードインストラクションを提供する。
モデルの互換性様々なモデルのテストを容易にするために、様々な主流モデルAPIをサポートしています。
結果の視覚化明確なテスト結果とスコアを提供し、研究者がモデルの潜在的なリスクを迅速に特定できるようにします。
オープンソースで拡張可能コードはオープンソースであるため、研究者が必要に応じてカスタマイズしたり拡張したりすることが容易である。

ペトリの強み

自動化と効率化監査プロセスを自動化することで、ペトリは大量の検査結果を迅速に生成することができ、評価の効率を大幅に改善し、時間と人件費を節約することができます。
包括的かつ多角的な評価なりすまし、グルーミング、自己防衛など、高リスクの行動を幅広くカバーし、包括的なセキュリティ分析を提供します。
柔軟性と拡張性APIはさまざまなモデルをサポートしており、研究者はさまざまな研究ニーズに合わせてテストシナリオを簡単に拡張し、カスタマイズすることができる。
オープンソースとコミュニティ・サポートオープンソースツールであるペトリは、研究者がテスト結果を共有し、コードを改良し、技術交流と進歩を促進できる活発なコミュニティによって支えられています。
体系的かつ標準化された同社は、研究者が再現可能で比較可能なテスト・ベンチマークを確立し、AIセキュリティ研究の標準化された開発を促進するのを支援するために、体系的なテスト・フレームワークと標準化された評価プロセスを提供している。

ペトリの公式ウェブサイトは？

公式ウェブサイトアドレス:: https://www.anthropic.com/research/petri-open-source-auditing
Githubリポジトリ:: https://github.com/safety-research/petri

ペトリは誰のためにあるのか？

AI研究者AIモデルの安全性、信頼性、挙動の整合性を調査し、ペトリを用いて体系的にテスト・分析。
モデル開発者大規模な言語モデルやその他のAIシステムを開発するエンジニアは、モデルの安全性と性能を評価し最適化するためにペトリを使用します。
セキュリティ専門家AI技術の潜在的なリスクを懸念する専門家は、モデルがもたらす可能性のあるセキュリティ上の脅威を特定し、防止するためにPetriを使用しています。
技術評価チームAIシステムの評価と監査を担当する企業または組織のチームが、Petriを使用して標準化されたセキュリティ評価を実施します。
アカデミックリサーチャーAIセキュリティ分野の学術研究に従事する研究者が、ペトリを通じて理論と実践を発展させるための実験・研究を行う。