近年、生成AI(GAI)や大規模言語モデル(LLM)の急速な発展に伴い、その安全性や信頼性の問題が注目されている。最近の研究で、以下のような新しいタイプのAIが発見された。 ベスト・オブ・N脱獄 (略してBoN)を使った、シンプルだが効率的な攻撃方法である。入力コンテンツをランダムにモーフィングし、それを繰り返し試みることで、研究者たちはいくつかの主流AIシステムのセキュリティ制限を回避し、有害または不適切なコンテンツを生成させることに成功した。衝撃的なことに、この方法の攻撃成功率は70%から90%に及び、現在のAIセキュリティ・メカニズムの重大な脆弱性を露呈した。
BoNアプローチの基本原則
Best-of-N脱獄法の核となるアイデアは、AIモデルの内部構造を理解する必要なく、入力(テキスト、画像、音声)に対して小さな変形を繰り返し実行することで、システムのセキュリティ制約を突破できる入力を徐々に見つけることである。これらの変形には以下が含まれる:
- テキスト入力 大文字と小文字をランダムに変えたり、文字を並べ替えたり、記号を追加したり。
- 画像入力 背景を変更し、異なるフォントでテキストをオーバーレイします。
- 音声入力 ピッチや再生速度の調整、バックグラウンド・ノイズの追加。
これらの変形は、入力の中核となるセマンティクスを変更するものではないが、場合によってはAIシステムからの誤った応答を引き起こす可能性がある。研究者たちは試行を繰り返すうちに、セキュリティ・ルールに違反するコンテンツを生成するようにモデルを誘導する「最適な変形」入力を見つけることができた。
攻撃の成功とカバレッジ
研究チームは、BoNの手法を使っていくつかの主流AIシステムをテストし、その結果、これらのシステムは概してこの単純な攻撃に対して高い脆弱性を示した。例
- GPT-4 89%の入力変形は、安全限界を突破することが可能です。
- クロード 3.5 78%のモーフアタックは成功した。
- その他の主流システム 正確な成功率はシステムによって異なるが、同様の脆弱性が見られる。
BoN攻撃の成功率は、そのランダム性とスケーラビリティにより、従来のAI脱獄技術よりも著しく高い。この手法は特に生成AIタスクにおいて有効であり、現在のAIシステムのセキュリティ設計には十分な堅牢性が欠けていることを示唆している。
攻撃の規模と予測可能性
また、攻撃成功率は試行回数(N値)に応じてべき乗則で増加することが示されている。これは、サンプル数や計算能力を増やすことで、BoN法がより高い攻撃成功率を達成できることを意味する。この特性により、研究者は成功率を正確に予測し、特定のモデルの攻撃戦略を調整することができます。例
- GPT-4では、20%の試行回数を増やすと、成功率は10%増加する。
- BoN攻撃と他のテクニックを組み合わせることで、必要なサンプル数と試行回数を減らしながら、成功率をさらに高めることができる。
このことは、BoN法が効率的であるだけでなく、他の攻撃方法を組み合わせることによって、より速く、より正確なブレークスルーを達成するための優れたスケーラビリティを持っていることを示している。
なぜBoNのアプローチが有効なのか?
研究者は、BoNアプローチの成功は、主に以下のような要因によるものだと指摘した:
- 入力変形がモデルの安全性評価メカニズムを乱す
ほとんどのAIシステムは、潜在的な脅威を識別するために、入力の特定の特徴やパターンに依存している。BoNのランダムな変形は、これらの特徴を破壊し、システムが入力を安全であると誤判定しやすくする。
- モデルとの相互作用のブラックボックス化
BoNは、AIモデルの内部メカニズムに関する知識に依存せず、攻撃を実行するために必要なのはシステムとの外部対話のみである。そのため、より実践的な運用が可能です。
- クロスモーダルな適用性
この方法はテキスト入力に適用できるだけでなく、視覚言語モデルや音声処理モデルを攻撃することもできる。例えば、画像にテキストを追加したり、音声ファイルのプロパティを調整することで、研究者たちはこれらのシステムのセキュリティ・ルールを回避することに成功した。
AIセキュリティへの警鐘
Best-of-N脱獄手法の出現は、AIシステムのセキュリティに対する警鐘である。BoN法は単純に見えるかもしれないが、その驚くほど効果的な攻撃は、AIシステムの現在のセキュリティ保護が、非伝統的な脅威の前ではまだ非常に脆弱であることを示している。
研究者らは、AI開発者は以下の方法でセキュリティを強化する必要があると提言している:
- 強化された入力ロバスト性
ランダムな変形に対してより厳しい入力検証メカニズムを設計することで、システムがバイパスされる可能性を減らすことができる。
- 共同多重防護
総合的なテキスト、ビジュアル、オーディオ評価を組み合わせて、システム全体のセキュリティを強化する。
- より高度なテストメカニズムの導入
生成逆説的ネットワーク(GAN)やその他の高度な技術を使用して、潜在的に悪意のある入力を自動的に識別します。
結語
Best-of-N脱獄法の研究結果は、AI技術の開発が性能向上に焦点を当てるだけでなく、セキュリティと信頼性にも向き合う必要があることを思い出させてくれる。セキュリティ保護メカニズムの継続的な改善を通じてのみ、AIシステムは幅広い用途で真に安全で信頼できるものになる。