Best-of-N脱獄：入力の単純なランダムモーフィングと、主流のAIシステムにセキュリティ制約を突破させて有害な反応を生成させる試みを繰り返す。

2.4K 00

近年、生成AI（GAI）や大規模言語モデル（LLM）の急速な発展に伴い、その安全性や信頼性の問題が注目されている。最近の研究で、以下のような新しいタイプのAIが発見された。 ベスト・オブ・N脱獄 (略してBoN）を使った、シンプルだが効率的な攻撃方法である。入力コンテンツをランダムにモーフィングし、それを繰り返し試みることで、研究者たちはいくつかの主流AIシステムのセキュリティ制限を回避し、有害または不適切なコンテンツを生成させることに成功した。衝撃的なことに、この方法の攻撃成功率は70%から90%に及び、現在のAIセキュリティ・メカニズムの重大な脆弱性を露呈した。

BoNアプローチの基本原則

Best-of-N脱獄法の核となるアイデアは、AIモデルの内部構造を理解する必要なく、入力（テキスト、画像、音声）に対して小さな変形を繰り返し実行することで、システムのセキュリティ制約を突破できる入力を徐々に見つけることである。これらの変形には以下が含まれる：

テキスト入力 大文字と小文字をランダムに変えたり、文字を並べ替えたり、記号を追加したり。
画像入力 背景を変更し、異なるフォントでテキストをオーバーレイします。
音声入力 ピッチや再生速度の調整、バックグラウンド・ノイズの追加。

Best-of-N 越狱法：对输入内容进行简单的随机变形并反复尝试，就能让主流 AI 系统突破安全限制产生有害回应

これらの変形は、入力の中核となるセマンティクスを変更するものではないが、場合によってはAIシステムからの誤った応答を引き起こす可能性がある。研究者たちは試行を繰り返すうちに、セキュリティ・ルールに違反するコンテンツを生成するようにモデルを誘導する「最適な変形」入力を見つけることができた。

攻撃の成功とカバレッジ

研究チームは、BoNの手法を使っていくつかの主流AIシステムをテストし、その結果、これらのシステムは概してこの単純な攻撃に対して高い脆弱性を示した。例

GPT-4 89%の入力変形は、安全限界を突破することが可能です。
クロード 3.5 78%のモーフアタックは成功した。
その他の主流システム 正確な成功率はシステムによって異なるが、同様の脆弱性が見られる。

BoN攻撃の成功率は、そのランダム性とスケーラビリティにより、従来のAI脱獄技術よりも著しく高い。この手法は特に生成AIタスクにおいて有効であり、現在のAIシステムのセキュリティ設計には十分な堅牢性が欠けていることを示唆している。

攻撃の規模と予測可能性

また、攻撃成功率は試行回数（N値）に応じてべき乗則で増加することが示されている。これは、サンプル数や計算能力を増やすことで、BoN法がより高い攻撃成功率を達成できることを意味する。この特性により、研究者は成功率を正確に予測し、特定のモデルの攻撃戦略を調整することができます。例

GPT-4では、20%の試行回数を増やすと、成功率は10%増加する。
BoN攻撃と他のテクニックを組み合わせることで、必要なサンプル数と試行回数を減らしながら、成功率をさらに高めることができる。

このことは、BoN法が効率的であるだけでなく、他の攻撃方法を組み合わせることによって、より速く、より正確なブレークスルーを達成するための優れたスケーラビリティを持っていることを示している。

なぜBoNのアプローチが有効なのか？

研究者は、BoNアプローチの成功は、主に以下のような要因によるものだと指摘した：

入力変形がモデルの安全性評価メカニズムを乱すほとんどのAIシステムは、潜在的な脅威を識別するために、入力の特定の特徴やパターンに依存している。BoNのランダムな変形は、これらの特徴を破壊し、システムが入力を安全であると誤判定しやすくする。
モデルとの相互作用のブラックボックス化BoNは、AIモデルの内部メカニズムに関する知識に依存せず、攻撃を実行するために必要なのはシステムとの外部対話のみである。そのため、より実践的な運用が可能です。
クロスモーダルな適用性この方法はテキスト入力に適用できるだけでなく、視覚言語モデルや音声処理モデルを攻撃することもできる。例えば、画像にテキストを追加したり、音声ファイルのプロパティを調整することで、研究者たちはこれらのシステムのセキュリティ・ルールを回避することに成功した。