Best-of-N 越狱法：对输入内容进行简单的随机变形并反复尝试，就能让主流 AI 系统突破安全限制产生有害回应

2.4K 00

近年来，随着生成式 AI（Generative AI）和大语言模型（LLM）的迅速发展，其安全性和可靠性问题引起了广泛关注。一项最新研究发现了一种被称为 Best-of-N 越狱法 （简称 BoN）的简单但高效的攻击方法。通过对输入内容进行随机变形并反复尝试，研究者成功绕过了多个主流 AI 系统的安全限制，迫使其生成有害或不当的内容。令人震惊的是，这种方法的攻击成功率在 70% 至 90% 之间，暴露了当前 AI 安全机制的显著脆弱性。

BoN 方法的核心原理

Best-of-N 越狱法的核心思想是在不需要了解 AI 模型内部结构的情况下，通过对输入内容（文本、图像、音频）进行反复的小幅变形，逐步找到能够突破系统安全限制的输入。这些变形包括：

文本输入 ：随机更改大小写、调整字符顺序或加入符号等。
图像输入 ：更换背景、叠加不同字体的文本。
音频输入 ：调整音调、播放速度或加入背景噪声。

Best-of-N 越狱法：对输入内容进行简单的随机变形并反复尝试，就能让主流 AI 系统突破安全限制产生有害回应

这些变形不改变输入的核心语义，却能在某些情况下触发 AI 系统的错误响应。通过多次尝试，研究者能够找到一个“最佳变形”输入，从而诱导模型生成违反安全规则的内容。

攻击成功率与覆盖范围

研究团队使用 BoN 方法对多个主流 AI 系统进行了测试，结果显示这些系统在面对这种简单攻击时普遍表现出高度脆弱性。例如：

GPT-4 ：89% 的输入变形能够突破其安全限制。
Claude 3.5 ：78% 的变形攻击成功。
其他主流系统 ：同样表现出类似的脆弱性，尽管具体成功率因系统而异。

BoN 攻击的成功率显著高于传统的 AI 越狱技术，这归功于其随机性和可扩展性。尤其是在生成式 AI 任务中，该方法的效果尤为突出，表明当前 AI 系统的安全设计缺乏足够的鲁棒性。

攻击规模与预测性

研究还表明，攻击成功率随着尝试次数（N 值）的增加而呈幂律增长。这意味着，通过增加样本数量或计算能力，BoN 方法能够实现更高的攻击成功率。这一特性使得研究者能够对成功率进行准确预测，从而针对特定模型调整攻击策略。例如：

对 GPT-4，增加 20% 的尝试次数可将成功率提高 10%。
使用 BoN 攻击和其他技术组合，成功率进一步提升，同时减少了所需样本数和尝试次数。

这表明 BoN 方法不仅高效，还具有良好的可扩展性，能够通过组合其他攻击方法实现更快速、更精准的突破。

为什么 BoN 方法有效？

研究者指出，BoN 方法的成功主要得益于以下几点：

输入变形扰乱了模型的安全评估机制大多数 AI 系统依赖输入的特定特征或模式来识别潜在威胁。BoN 的随机变形破坏了这些特征，使得系统更容易误判输入为安全。
与模型交互的黑箱性BoN 不依赖对 AI 模型内部机制的了解，仅需要与系统进行外部交互即可实施攻击。这使得它在实际应用中更具操作性。
跨模态适用性该方法不仅适用于文本输入，还能够攻击视觉语言模型和语音处理模型。例如，通过在图像上添加文本或调整音频文件的属性，研究者成功绕过了这些系统的安全规则。