Anthropicがルール分類器をリリース：大規模言語モデルの脱獄攻撃に対する効果的な防御、ボーナスのためのテストに参加！

2.1K 00

AI技術の急速な発展に伴い、大規模言語モデル（LLM）はかつてないスピードで私たちの生活を変えつつある。LLMは悪意を持って悪用され、有害な情報を流出させたり、化学・生物・放射線・核兵器（CBRN）の製造に利用されたりする可能性があります。このような脅威に対抗するため、Anthropic Security研究チームは、革新的な防御メカニズムであるルール分類器（憲法分類器）本研究は、自然言語ルールに基づく分類器の学習により、モデルのセキュリティを系統的に回避する「ジェネリック脱獄」攻撃を防御することを目的とする。本研究は、自然言語ルールに基づく分類器を訓練することで、モデルのセキュリティを系統的に回避する「ジェネリック脱獄」攻撃を防御することを目的としている。

--憲法クラシファイア：ジェネリック脱獄攻撃に対する防御

アンソロピックセーフガード研究チーム新しい論文が発表された。この論文では、一般的な脱獄攻撃に対してAIモデルを防御する方法について述べる。この手法のプロトタイプバージョンは、高い過剰拒絶率と計算オーバヘッドはあるものの、何千時間もの手動レッドチームテストにおいて、ジェネリック脱獄攻撃に対して頑健であった。更新されたバージョンは、合成評価において同様の頑健性を達成し、計算コストを適度に増加させながら、拒絶率を0.38%だけ増加させた。

Anthropicチームは現在、Constitutional Classifiersシステムの一時的なオンラインデモ版をホストしており、AIシステムを脱獄した経験のある読者に「レッドチームテスト」に協力することを勧めています。クリックしてくださいデモサイト詳細はこちら。

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！

2025年2月5日更新：Anthropicチームは現在、脱獄によって最初に8つのレベル全てをデモした人に$10,000の報酬を、ユニバーサル脱獄戦略を使って最初にデモした人に$20,000の報酬を提供している。報酬と関連条件の詳細については、以下をご覧ください。ハッカーワン.

大規模な言語モデルは、有害な出力を防ぐために大規模なセキュリティ・トレーニングを受けている。例えば、Anthropicはクロード生物・化学兵器の製造に関わるユーザーからの問い合わせに応じない。

しかし、このモデルは次のような脆弱性を残している。脱獄攻撃：そのセキュリティガードをバイパスし、有害な応答を強制するために設計された入力。いくつかの脱獄攻撃は非常に長いマルチサンプルチップ洪水モデル、その他の修正入力スタイル例えば、uNuSuAl cApItALiZaTiOnこの珍しいケースパターン。歴史的に、脱獄攻撃を検知し阻止することは困難であることが判明している。もう10年以上前の話だ。しかし、Anthropicが知る限り、本番環境で完全にロバストなディープラーニングモデルはまだ存在しない。

Anthropicは、今後ますます強力なモデルを安全に展開できるように、より良い脱獄防御を開発しています。Anthropicの責任あるスケーリング戦略に従い、Anthropicが適切なセキュリティ対策で許容レベルまでリスクを軽減できる限り、Anthropicはそのようなモデルをデプロイすることができますが、ジェイルブレイク攻撃は、ユーザーがこれらのセキュリティ対策をバイパスすることを可能にします。特に、Anthropicは、Anthropicの責任ある拡張戦略^1^に概説されているCBRN能力のしきい値を通過したモデルをジェイルブレイクするリスクを軽減するために、AnthropicがConstitutional Classifiersによって防御されたシステムを可能にすることを期待しています。

ある 人類学の新論文 その中で、『人間主義』は、次のようなシステムを説明している。 憲法クラシファイアー 脱獄攻撃からモデルを保護するシステムの。これらのConstitutional Classifiersは、合成的に生成されたデータで訓練された入力と出力の分類器であり、計算オーバーヘッドを発生させることなく、過剰拒否を最小限に抑えながら、脱獄攻撃の大部分をフィルタリングします。

手動レッドチーム・テストの結果

Anthropicは、Constitutional Classifiersの有効性を評価するために、主に2種類のテストを実施しました。

まずAnthropicは、化学的、生物学的、放射線学的、核の危険に関する特定の科学的知識を特定し、ブロックするシステムのプロトタイプバージョンを開発した。その後、Anthropicは、独立した脱獄者にバグ報奨金プログラムに参加するよう呼びかけ、彼らはシステムの「レッドチームテスト」（すなわち、その堅牢性をテストするために実験的な条件下でシステムをクラックしようとすること）を依頼された。

具体的には、10個の "禁じられた "クエリのリストが与えられ、彼らのタスクは、Anthropicの現行モデルの1つ（この場合、Claude 3.5 Sonnet、2024年6月）を、Constitutional Classifiersのプロトタイプバージョンの保護の下で、好きな脱獄テクニックを使ってそのすべてに答えさせることだった。Constitutional Classifiersのプロトタイプ・バージョンの保護下で、すべてのクエリに答える。このようなことが可能になるのは、そのモデルが憲法分類法をよく理解している場合だけである。 所有権 Anthropicは、クエリが詳細に回答されたときにのみ成功した "一般的な "脱獄と見なした。

2ヶ月の実験期間中、183人のアクティブな^2^参加者が推定3,000時間以上を費やしてモデルの脱獄を試みた。一般的な脱獄を発見した場合、最高15,000ドルの金銭的報酬が与えられた。努力にもかかわらず、参加者の誰も、単一の脱獄で10個の禁止されたクエリすべてに答えるようにモデルを誘導することができなかった、すなわち、一般的な脱獄は見つからなかった。

このプロトタイプ・システムは脱獄攻撃に対して頑強ではあるが、いくつかの問題がある。この2つの問題を解決したシステムは、より安全かもしれないが、導入も容易ではないかもしれない。それ以来、Anthropicはこれらの問題を大幅に軽減しながら、同様のレベルの堅牢性を達成するためにAnthropicのシステムを改良してきました。

自動アセスメントの結果

Anthropicは、Anthropicが合成的に、現在の大規模な言語モデルに対して最も効果的な攻撃の多くと同様に、分類器のセキュリティ対策を回避するために設計された攻撃を含む10,000脱獄のヒントを生成する自動評価のセットを実行しました。3.5ソネットのバージョン（2024年10月）はConstitutional Classifiersで保護され、クロードのバージョンはClassifiersで保護されていません。

防御クラシファイアなしのベースライン条件では、脱獄成功率は86%であった - つまり、Claude自身はこれらの高度な脱獄の試みのうち14%しかブロックしていない。脱獄成功率は4.4%に低下し、これは95%以上の脱獄の試みが拒否されることを意味する。

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！
図1：自動評価の結果。すべてのグラフにおいて、値が低いほど優れている。(a)ConstitutionalClassifiersで保護されたシステムでは、ジェイルブレイクの成功率が非常に低い。(b)Constitutional Classifiersを使用した場合、Claude.ai FreeおよびProの実運用トラフィック上のシステムの拒否率に統計的に有意な増加はない。(c)Constitutional Classifiersを使用したシステムの相対的な計算コストは中程度に高いだけである。(c) Constitutional Classifiersを使用したシステムの相対的な計算コストは中程度にしか高くならない。エラーバーは、漸近正規性の仮定の下で、二項比例標準誤差を用いて計算された95%信頼区間を表す。

同時に、AnthropicのConstitutional Classifiersは、無害なユーザークエリの過剰拒否率を実質的に増加させません：Claudeの拒否率には、クラシファイヤーでわずかな増加（0.381 TP3Tの増加）がありますが、これは5,000の会話のランダムサンプルで統計的に有意ではありません。Anthropicは、Anthropicがこの技術を改善するにつれて、拒否率と計算コストをさらに削減するよう取り組んでいます。

全体的に、Anthropicの自動分析によると、Constitutional Classifiersシステムのこのアップデートバージョンは、脱獄攻撃に対するAIモデルの堅牢性を大幅に向上させ、最小限の追加コストでそれを実現しています。

動作原理

コンスティテューショナル・クラシファーズは、次のような原則に基づいている。憲法AI 同様のプロセスで、コンスティテューショナルAIもクロードを調整するためにアントロピックが使用している手法である。どちらの手法も憲章を使用する。つまり、モデルが遵守すべき原則のリストである。Constitutional Classifiersの場合、これらの原則は、許容されるコンテンツカテゴリーと許容されないコンテンツカテゴリーを定義する（例えば、マスタードのレシピは許容されるが、マスタードガスのレシピは許容されない）。

Anthropicは、Claudeの助けを借りて、この憲章を使用して、すべてのコンテンツカテゴリにわたって合成ヒントと合成モデルの補完を大量に生成しました。Anthropicは、リストが多様であることを保証するために、これらのヒントと補完を拡張しました。

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！
図2：憲法分類器の訓練と実装。(a) 無害と有害のカテゴリーを指定するための憲章が作成される。(b) 憲章は、さらに拡張され（文体や言語のバリエーション）、訓練セットに変換される多数の合成キューと補足を生成するための基礎として使用される。有害なコンテンツを検出し、ブロックするためのセキュリティ対策。

Anthropicは、この合成データを使用して、Anthropicの入力と出力の分類器を訓練し、与えられた憲章に基づいて潜在的に有害なコンテンツにフラグを立てる（そしてブロックする）。過剰拒否（無害なコンテンツを誤って有害とすること）を最小化するために、Anthropicはまた、請負業者によって生成された良性のクエリの固定セットで分類器を訓練します。

制限

憲法クラシファイアは、すべての一般的な脱獄を停止することはできませんが、Anthropicのクラシファイアを通過する脱獄攻撃の少数であっても、セキュリティ対策が使用されているときに検出するために多くの努力を必要とするとAnthropicは信じています。また、将来的にこのシステムに有効な新しい脱獄技術が開発される可能性もあるため、Anthropicは補完的な防御策の使用を推奨している。しかし、分類器を訓練するために使用される憲章は、新しいタイプの攻撃が発見された場合、それらをカバーするために迅速に適応することができます。

論文全文には、Constitutional Classifiersの手法と分類法自体の詳細がすべて含まれている。

憲法クラシファイア・オンライン・デモ

Anthropicは、AnthropicのConstitutional-Classifiersで保護されたシステムのデモを試したり、Anthropicの新しい技術で保護されたClaudeの3.5 Sonnetバージョンを脱獄してみたりすることをお勧めします。

Constitutional Classifiersのテクノロジーはどんなトピックにも柔軟に対応できるが、Anthropicは化学兵器に関連するクエリに焦点を絞ってプレゼンテーションを行うことにした。

Anthropicが論文のために行ったテストの範囲を超えて、実世界の条件下でAnthropicのシステムをストレステストしたかったのです。これにより、Anthropicはより多くのデータを収集し、将来Anthropicの本番システムに展開する前に方法の堅牢性を向上させることができます。

デモンストレーション に掲載される。 3 2025年2月 まで 2025年2月10日 Anthropicは脱獄の期間中、オンラインで利用できるようにします。それはあなたが成功した脱獄を報告するためにAnthropicに連絡することができますフィードバックフォームが含まれています, 同様にAnthropicの責任開示ポリシーに関する情報, Anthropicは参加者が遵守する必要があります.Anthropicは、この投稿の更新でデモの成功と一般的な結果を発表します.

2025年2月5日更新：上記のように、Anthropicは現在、成功したAnthropicシステムの脱獄のための金銭報酬を提供しています。脱獄デモのすべての8つのレベルに合格した最初の人は$ 10,000米ドルを獲得します。一般的な脱獄戦略を使用してすべての8つのレベルを渡す最初の人は$ 20,000を獲得します。報酬と関連条件の完全な詳細については、HackerOneをご覧ください。