Petri - Anthropic开源的 AI 安全审计框架

最新AI资源22小时前更新 AI分享圈
1.8K 00
堆友AI

Petri是什么

Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代理对模型的行为进行多维度评分。Petri 支持多种模型 API,并提供丰富的种子指令,涵盖欺骗、谄媚、配合有害请求等高风险情境。在 14 个前沿模型上进行了测试,发现所有模型在不同场景下都存在不同程度的安全对齐风险。

Petri - Anthropic开源的 AI 安全审计框架

Petri的功能特色

  • 自动化审计:通过模拟用户和工具与目标 AI 系统进行多轮对话,自动评估模型行为。
  • 多维度评分:对模型的行为进行多维度分析,重点关注与安全相关的维度。
  • 种子指令支持:提供多样化的种子指令,涵盖多种高风险情境,帮助研究人员快速开始测试。
  • 模型兼容性:支持多种主流模型 API,方便在不同模型上进行测试。
  • 结果可视化:提供清晰的测试结果和评分,帮助研究人员快速识别模型的潜在风险。
  • 开源可扩展:代码开源,方便研究人员根据需求进行定制和扩展。

Petri的核心优势

  • 自动化与高效性:通过自动化审计流程,Petri 能够快速生成大量测试结果,显著提高评估效率,节省时间和人力成本。
  • 全面性与多维度评估:支持对 AI 模型进行多维度的安全性评估,涵盖欺骗、诱导、自我保护等多种高风险行为,提供全面的安全分析。
  • 灵活性与可扩展性:支持多种模型 API,研究人员可以根据需要轻松扩展和定制测试场景,适应不同研究需求。
  • 开源与社区支持:作为开源工具,Petri 拥有活跃的社区支持,研究人员可以共享测试结果、改进代码,促进技术交流和进步。
  • 系统性与标准化:提供系统化的测试框架和标准化的评估流程,帮助研究人员建立可复现、可比较的测试基准,推动 AI 安全研究的规范化发展。

Petri官网是什么

  • 官网地址:https://www.anthropic.com/research/petri-open-source-auditing
  • Github仓库:https://github.com/safety-research/petri

Petri的适用人群

  • AI 研究人员:研究 AI 模型的安全性、可靠性和行为对齐问题,通过 Petri 进行系统性的测试和分析。
  • 模型开发人员:开发大型语言模型或其他 AI 系统的工程师,使用 Petri 评估和优化模型的安全性和性能。
  • 安全专家:关注 AI 技术潜在风险的专业人士,利用 Petri 识别和防范模型可能带来的安全威胁。
  • 技术评估团队:负责评估和审核 AI 系统的企业或机构团队,借助 Petri 进行标准化的安全评估。
  • 学术研究者:从事 AI 安全领域学术研究的学者,通过 Petri 开展实验和研究,推动理论和实践的发展。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...