Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！

2.1K 00

随着人工智能技术的飞速发展，大型语言模型（LLM）正以前所未有的速度改变着我们的生活。然而，技术的进步也带来了新的挑战：LLM 可能会被恶意利用，泄露有害信息，甚至被用于制造化学、生物、放射性和核武器（CBRN）。为了应对这些威胁，Anthropic 安全研究团队提出了一种创新的防御机制——规则分类器（Constitutional Classifiers）。这项研究旨在通过训练基于自然语言规则的分类器，抵御那些能够系统性地绕过模型安全防护的“通用越狱”攻击。

——Constitutional Classifiers: 防御通用越狱攻击

Anthropic Safeguards Research Team 新发布了一篇论文，描述了一种防御 AI 模型免受通用越狱攻击的方法。该方法的一个原型版本在数千小时的人工红队测试中对通用越狱攻击具有鲁棒性，尽管存在较高的过度拒绝率和计算开销。一个更新的版本在合成评估中实现了类似的鲁棒性，并且拒绝率仅增加了 0.38%，计算成本适度增加。

Anthropic 团队目前正在托管一个 Constitutional Classifiers 系统的临时在线演示版本，鼓励有 AI 系统越狱经验的读者帮助对其进行“红队测试”。请点击演示网站了解更多信息。

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！

2025 年 2 月 5 日更新：Anthropic 团队现在为第一个通过越狱演示所有八个级别的人提供 10,000 美元的奖励，为第一个使用通用越狱策略完成此操作的人提供 20,000 美元的奖励。有关奖励和相关条件的完整详细信息，请访问 HackerOne。

大型语言模型经过了广泛的安全训练，以防止有害输出。例如，Anthropic 训练 Claude 拒绝回应涉及生产生物或化学武器的用户查询。

然而，模型仍然容易受到越狱攻击：旨在绕过其安全护栏并迫使其产生有害响应的输入。一些越狱攻击用非常长的多样本提示淹没模型；另一些则修改输入的风格，例如 uSiNg uNuSuAl cApItALiZaTiOn 这种不寻常的大小写方式。从历史上看，越狱攻击已被证明难以检测和阻止：这类攻击在 10 多年前就被描述过，但据 Anthropic 所知，目前在生产环境中仍然没有完全鲁棒的深度学习模型。

Anthropic 正在开发更好的越狱防御措施，以便将来可以安全地部署功能越来越强大的模型。根据 Anthropic 的负责任的扩展策略，只要 Anthropic 能够通过适当的安全措施将风险降低到可接受的水平，Anthropic 就可以部署此类模型——但越狱攻击让用户绕过了这些安全措施。特别是，Anthropic 希望由 Constitutional Classifiers 防御的系统能够使 Anthropic 减轻已通过 Anthropic 负责任的扩展策略 ^1^ 中概述的 CBRN 能力阈值的模型的越狱风险。

在 Anthropic 的新论文 中，Anthropic 描述了一个基于 Constitutional Classifiers 的系统，该系统可以保护模型免受越狱攻击。这些 Constitutional Classifiers 是在合成生成的数据上训练的输入和输出分类器，它们可以过滤掉绝大多数的越狱攻击，同时最大限度地减少过度拒绝，并且不会产生大量的计算开销。

来自人工红队测试的结果

Anthropic 进行了两类主要的测试，以评估 Constitutional Classifiers 的有效性。

首先，Anthropic 开发了该系统的原型版本，以识别和阻止与化学、生物、放射和核危害相关的特定科学知识。然后，Anthropic 邀请独立的越狱者参加一个漏洞赏金计划，在其中他们被要求“红队测试”该系统（即，在实验条件下尝试破解该系统以测试其鲁棒性）。

具体来说，他们得到了一份包含十个“禁止”查询的列表，他们的任务是使用他们想要的任何越狱技术，让 Anthropic 当前的模型之一（在本例中为 Claude 3.5 Sonnet，2024 年 6 月），在 Constitutional Classifiers 原型版本的保护下，回答所有查询。只有当模型对所有查询都提供了详细的答案时，Anthropic 才认为这是一个成功的“通用”越狱。

在为期两个月的实验期间，183 名活跃 ^2^ 参与者花费了估计超过 3,000 个小时试图越狱该模型。如果他们发现通用越狱，他们将获得高达 15,000 美元的 monetary reward。尽管付出了大量的努力，但没有一位参与者能够诱使模型用一次越狱就回答所有十个禁止的查询——也就是说，没有发现通用越狱。

尽管这个原型系统对越狱攻击具有鲁棒性，但它也存在一些问题：它拒绝了太多无害的查询，并且运行成本很高。具有这两个问题的系统可能更安全，但也可能不便于部署。从那时起，Anthropic 改进了 Anthropic 的系统，在大大减少这些问题的同时，实现了类似的鲁棒性水平。

来自自动化评估的结果

Anthropic 运行了一组自动化评估，其中 Anthropic 合成生成了 10,000 个越狱提示，包括许多对当前大语言模型最有效的攻击，以及旨在规避分类器安全措施的攻击。Anthropic 在受 Constitutional Classifiers 保护的 Claude 3.5 Sonnet 版本（2024 年 10 月）和未受分类器保护的 Claude 版本上尝试了这些提示。

在基线条件下，在没有防御性分类器的情况下，越狱成功率为 86%——也就是说，Claude 本身只阻止了 14% 的这些高级越狱尝试。然而，使用 Constitutional Classifiers 保护 Claude 产生了显著的改进：越狱成功率降至 4.4%，这意味着超过 95% 的越狱尝试被拒绝。

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！
图 1: 来自自动化评估的结果。对于所有图表，数值越低越好。(a) 在 Constitutional Classifiers 保护的系统中，越狱的成功率要低得多； (b) 在使用 Constitutional Classifiers 时，系统在生产环境 Claude.ai Free 和 Pro 流量上的拒绝率没有统计学上的显著升高； (c) 使用 Constitutional Classifiers 的系统的相对计算成本仅适度升高。误差条表示在渐近正态性假设下使用二项比例标准误差计算的 95% 置信区间。

与此同时，Anthropic 的 Constitutional Classifiers 并没有大幅增加对无害用户查询的过度拒绝率：在使用分类器的情况下，Claude 的拒绝率略有增加（增加了 0.38%），但在 5,000 个对话的随机样本中，这在统计学上并不显著。最后，计算成本适度增加（增加了 23.7%），高于未受保护的模型。Anthropic 正在努力进一步减少拒绝和计算成本，因为 Anthropic 正在改进这项技术。

总的来说，Anthropic 的自动化分析发现，这个更新版本的 Constitutional Classifiers 系统显著提高了 AI 模型抵御越狱攻击的鲁棒性——并且这样做仅需极少的额外成本。

工作原理

Constitutional Classifiers 基于与 Constitutional AI 类似的过程，Constitutional AI 是 Anthropic 用于对齐 Claude 的另一种技术。这两种技术都使用章程：模型应遵守的原则列表。在 Constitutional Classifiers 的案例中，这些原则定义了允许和不允许的内容类别（例如，芥末酱的食谱是允许的，但芥子气的食谱是不允许的）。

在 Claude 的帮助下，Anthropic 使用这份章程来生成大量跨所有内容类别的合成提示和合成模型补全。Anthropic 扩充了这些提示和补全，以确保列表的多样化：这包括将它们翻译成不同的语言，并将它们转换成以已知的越狱风格编写。

Anthropic 发布规则分类器：有效防御大语言模型越狱攻击，参与测试领奖金！
图 2: 训练和实施 Constitutional Classifiers。(a) 制定章程，明确无害和有害类别； (b) 章程被用作生成大量合成提示和补全的基础，这些提示和补全被进一步扩充（风格和语言的变化），并转化为训练集； (c) 在此训练集上训练的分类器被用作模型安全措施，以检测和阻止有害内容。

然后，Anthropic 使用这些合成数据来训练 Anthropic 的输入和输出分类器，以根据给定的章程标记（和阻止）潜在的有害内容。为了帮助最大限度地减少过度拒绝（即，将无害内容错误地标记为有害），Anthropic 还在承包商生成的一组固定的良性查询上训练分类器。

局限性

Constitutional Classifiers 可能无法阻止每一次通用越狱，但 Anthropic 认为，即使是少量能够通过 Anthropic 分类器的越狱攻击，在使用安全措施的情况下，也需要付出更多的努力才能被发现。未来也可能会开发出对该系统有效的新的越狱技术；因此，Anthropic 建议使用互补的防御措施。然而，用于训练分类器的章程可以快速调整，以涵盖发现的新型攻击。

完整论文包含了关于 Constitutional Classifiers 方法以及分类器本身的所有详细信息。

Constitutional Classifiers 在线演示

想亲自尝试红队测试 Claude 吗？Anthropic 邀请您试用 Anthropic 受 Constitutional-Classifiers 保护的系统的演示，并尝试越狱使用 Anthropic 新技术保护的 Claude 3.5 Sonnet 版本。

尽管 Constitutional Classifiers 技术非常灵活，可以适应任何主题，但 Anthropic 选择将演示的重点放在与化学武器相关的查询上。

挑战用户尝试越狱 Anthropic 的产品具有重要的安全目的：Anthropic 希望在真实世界的条件下对 Anthropic 的系统进行压力测试，超出 Anthropic 为论文所做的测试范围。这使 Anthropic 能够收集更多数据，并在未来将此方法部署到 Anthropic 的生产系统之前，提高该方法的鲁棒性。

演示将于 2025 年 2 月 3 日 至 2025 年 2 月 10 日 期间在线提供。它包括一个反馈表，您可以在其中联系 Anthropic 报告任何成功的越狱，以及 Anthropic 的负责任的披露政策的信息，Anthropic 要求参与者遵守该政策。Anthropic 将在此帖子的更新中宣布任何成功案例和演示的一般结果。

2025 年 2 月 5 日更新：如上所述，Anthropic 现在为成功越狱 Anthropic 系统提供 monetary reward。第一个通过越狱演示所有八个级别的人将赢得 10,000 美元。第一个使用通用越狱策略通过所有八个级别的人将赢得 20,000 美元。有关奖励和相关条件的完整详细信息，请访问 HackerOne。