近年来,随着生成式 AI(Generative AI)和大语言模型(LLM)的迅速发展,其安全性和可靠性问题引起了广泛关注。一项最新研究发现了一种被称为 Best-of-N 越狱法 (简称 BoN)的简单但高效的攻击方法。通过对输入内容进行随机变形并反复尝试,研究者成功绕过了多个主流 AI 系统的安全限制,迫使其生成有害或不当的内容。令人震惊的是,这种方法的攻击成功率在 70% 至 90% 之间,暴露了当前 AI 安全机制的显著脆弱性。
BoN 方法的核心原理
Best-of-N 越狱法的核心思想是在不需要了解 AI 模型内部结构的情况下,通过对输入内容(文本、图像、音频)进行反复的小幅变形,逐步找到能够突破系统安全限制的输入。这些变形包括:
- 文本输入 :随机更改大小写、调整字符顺序或加入符号等。
- 图像输入 :更换背景、叠加不同字体的文本。
- 音频输入 :调整音调、播放速度或加入背景噪声。
这些变形不改变输入的核心语义,却能在某些情况下触发 AI 系统的错误响应。通过多次尝试,研究者能够找到一个“最佳变形”输入,从而诱导模型生成违反安全规则的内容。
攻击成功率与覆盖范围
研究团队使用 BoN 方法对多个主流 AI 系统进行了测试,结果显示这些系统在面对这种简单攻击时普遍表现出高度脆弱性。例如:
- GPT-4 :89% 的输入变形能够突破其安全限制。
- Claude 3.5 :78% 的变形攻击成功。
- 其他主流系统 :同样表现出类似的脆弱性,尽管具体成功率因系统而异。
BoN 攻击的成功率显著高于传统的 AI 越狱技术,这归功于其随机性和可扩展性。尤其是在生成式 AI 任务中,该方法的效果尤为突出,表明当前 AI 系统的安全设计缺乏足够的鲁棒性。
攻击规模与预测性
研究还表明,攻击成功率随着尝试次数(N 值)的增加而呈幂律增长。这意味着,通过增加样本数量或计算能力,BoN 方法能够实现更高的攻击成功率。这一特性使得研究者能够对成功率进行准确预测,从而针对特定模型调整攻击策略。例如:
- 对 GPT-4,增加 20% 的尝试次数可将成功率提高 10%。
- 使用 BoN 攻击和其他技术组合,成功率进一步提升,同时减少了所需样本数和尝试次数。
这表明 BoN 方法不仅高效,还具有良好的可扩展性,能够通过组合其他攻击方法实现更快速、更精准的突破。
为什么 BoN 方法有效?
研究者指出,BoN 方法的成功主要得益于以下几点:
- 输入变形扰乱了模型的安全评估机制
大多数 AI 系统依赖输入的特定特征或模式来识别潜在威胁。BoN 的随机变形破坏了这些特征,使得系统更容易误判输入为安全。
- 与模型交互的黑箱性
BoN 不依赖对 AI 模型内部机制的了解,仅需要与系统进行外部交互即可实施攻击。这使得它在实际应用中更具操作性。
- 跨模态适用性
该方法不仅适用于文本输入,还能够攻击视觉语言模型和语音处理模型。例如,通过在图像上添加文本或调整音频文件的属性,研究者成功绕过了这些系统的安全规则。
AI 安全的警钟
Best-of-N 越狱法的出现为 AI 系统安全领域敲响了警钟。尽管 BoN 方法看似简单,但其惊人的攻击效果表明,当前 AI 系统的安全防护在面对非传统威胁时依然非常脆弱。
研究者建议,AI 开发者需要从以下几个方面加强安全防护:
- 增强输入鲁棒性
针对随机变形设计更严格的输入验证机制,减少系统被绕过的可能性。
- 多模态联合防护
结合文本、视觉和音频的综合评估,提升系统的整体安全性。
- 引入更先进的检测机制
使用生成式对抗网络(GAN)或其他先进技术,自动识别潜在的恶意输入。
结语
Best-of-N 越狱法的研究成果提醒我们,AI 技术的发展不仅需要关注性能提升,还需要正视其安全性和可靠性的问题。只有通过持续改进安全防护机制,AI 系统才能真正实现安全、可靠的广泛应用。