Clio: 一个用于保护隐私的真实世界 AI 使用洞察系统
人们使用 AI 模型做什么?尽管大语言模型的流行度迅速增长,但直到现在,我们对它们的具体使用方式还缺乏深入的了解。
这不仅仅是好奇心的问题,甚至也不仅仅是社会学研究的问题。了解人们实际如何使用语言模型对于安全性而言至关重要:服务提供商在部署前进行大量测试,并使用信任与安全系统防止滥用。然而,语言模型能够执行的功能种类繁多,规模庞大,使得理解其用途——更不用说进行全面的安全监控——变得非常困难。
还有一个关键因素阻碍了对 AI 模型使用情况的清晰理解:隐私。在 Anthropic,我们的 Claude 模型默认情况下不会使用用户对话数据进行训练,并且我们非常重视用户数据的保护。那么,我们如何在严格维护用户隐私的同时研究和观察我们的系统的使用情况呢?
Claude 的 insights 和 observations,简称“Clio”,是我们为解答这一问题的尝试。Clio 是一个自动化分析工具,能够保护隐私地分析真实世界中语言模型的使用情况。它类似于 Google Trends,为我们提供了对 claude.ai 日常使用情况的洞察,同时也帮助我们改进安全措施。在这篇文章中(附有完整研究论文),我们将描述 Clio 及其一些初步结果。
Clio 的工作原理:大规模隐私保护分析
传统的自上而下的安全方法(如评估和红队测试)依赖于提前知道要寻找的内容。Clio 采取了不同的方法,通过将对话提炼为抽象、易于理解的话题集群,实现自下而上的模式发现。同时,它保护了用户隐私:数据会被自动匿名化和聚合,只有更高层次的集群信息对人类分析人员可见。
Clio 分析步骤的概要示例,使用虚构的对话示例进行说明。
以下是 Clio 多阶段流程的简要概述:
- 提取属性:对于每次对话,Clio 提取多个“属性”——特定的属性或元数据,例如对话主题、对话的往返次数或使用的语言。
- 语义聚类:通过主题或一般话题自动将相似对话归为一组。
- 集群描述:每个集群都会得到一个描述性标题和摘要,提炼原始数据中的共同主题,同时排除私密信息。
- 构建层级结构:将集群组织成多层级结构,便于探索。它们随后可以呈现在互动界面中,Anthropic 的分析人员可以借此探索不同维度(主题、语言等)中的模式。
这四个步骤完全由 Claude 执行,而非由人类分析人员完成。这是 Clio 隐私优先设计的一部分,具有多层次的“纵深防御”。例如,Claude 被指示从对话中提取相关信息时排除私密细节。我们还设有最小的唯一用户或对话数量阈值,以确保低频话题(可能特定于某个人)不会被意外暴露。最后,Claude 会在显示给人类用户之前验证集群摘要中没有包含过于具体或可识别的信息。
我们所有的隐私保护措施都经过了广泛测试,具体内容详见研究论文。
人们如何使用 Claude: 来自 Clio 的洞察
通过 Clio,我们能够获得关于人们实际使用 claude.ai 的高层次洞察。虽然像 WildChat 和 LMSYS-Chat-1M 这样的公共数据集提供了关于人们使用语言模型的有用信息,但它们仅捕捉了特定的上下文和使用案例。Clio 让我们了解 claude.ai 在现实世界中使用的完整场景(这可能与其他 AI 系统的使用情况不同,因为用户群体和模型类型的差异)。
Claude.ai 的主要使用案例
我们使用 Clio 分析了 claude.ai(包括免费版和专业版)上的 100 万次对话,以识别用户使用 Claude 的主要任务。这表明用户特别注重与编程相关的任务:“Web 和移动应用程序开发”类别占所有对话的 10% 以上。软件开发人员使用 Claude 进行从调试代码到解释 Git 操作和概念等各种任务。
用户与 Claude 对话的最常见类型,涵盖所有语言。圆的面积对应对话的百分比;标题是 Clio 在分析 100 万随机选择的对话后生成的摘要。
教育用途是另一个重要类别,占对话总数的 7% 以上,内容主要涉及教学和学习。商业策略和运营(包括撰写专业通信和分析商业数据等任务)占了接近 6% 的对话。
Clio 还识别了数千个更小的对话集群,展示了 Claude 的多样化用途。这些用途中有些可能令人惊讶,包括:
- 解读梦境;
- 分析足球比赛;
- 灾难应对准备;
- 提供填字游戏提示;
- 龙与地下城 游戏;
- 数“strawberry”这个单词中的字母“r”。
Claude 的使用因语言而异
Claude 的使用在不同语言中差异显著,这反映了不同文化背景和需求。我们计算了每种语言在整体对话中出现的基本频率,并据此识别出某些主题在特定语言中出现频率明显更高。一些关于西班牙语、中文和日语的示例见下图。
在三种选定语言中(相较于该语言的基本频率)出现更频繁的对话主题,Clio 提供的洞察。
我们如何利用 Clio 改进安全系统
除了训练我们的语言模型拒绝有害请求外,我们还使用专门的信任与安全执行系统来检测、阻止并对可能违反我们 使用政策 的行为采取行动。Clio 补充了这项工作,帮助我们了解在哪些方面可以改进和加强这些系统。
我们在使用 Clio 时实施了严格的隐私访问控制,以进一步强化我们的政策,因为这可能需要审查个人账户。我们的信任与安全团队可以通过主题集群审查,识别出可能表明违反使用政策的领域。例如,一个名为“生成误导性筹款邮件内容”或“煽动仇恨行为”的集群描述了我们禁止的活动。我们的信任与安全团队可以利用这种自下而上的审查方法,识别需要进一步审查的个人账户,并在适当情况下根据我们的条款和政策采取行动。我们将此类审查严格限制在具有合法信任与安全需求的人群范围内。我们的 研究论文 包含关于这些流程的更多信息。
我们仍在将 Clio 推广到所有的执行系统中,但到目前为止,它已证明是我们安全工具包中的有用部分,帮助我们发现需要加强保护措施的领域。
识别和阻止协调性滥用行为
Clio 在识别协调性、复杂的滥用模式方面非常有效,这些模式单从单个对话中可能无法察觉,也可能逃避更简单的检测方法。例如,在 9 月下旬,我们发现了一组自动账户,它们使用类似的提示结构生成用于搜索引擎优化的垃圾内容。尽管没有单个对话违反我们的 使用政策,但账户间的行为模式揭示了我们政策明确禁止的一种协调性平台滥用行为,因此我们移除了这组账户。我们还使用 Clio 识别了其他被我们 使用政策 禁止的活动,例如试图转售未经授权的 Claude 访问权限。
针对高风险事件的增强监控
Clio 还帮助我们在不确定时期或高风险事件期间监控新的使用方式和潜在风险。例如,在我们推出新的 计算机使用 功能之前,我们进行了广泛的安全测试,同时使用 Clio 筛查可能被遗漏的突现能力和危害。Clio 在此提供了额外的安全保障,并提供了有助于我们在功能推出和未来系统版本中不断改进安全措施的见解。
Clio 还帮助我们在重大公共事件(如选举或国际重大事件)前夕监控未知风险。在 2024 年美国大选的几个月前,我们使用 Clio 识别了与美国政治、投票及相关问题有关的活动群组,并预防任何潜在风险或滥用行为。Clio 实现的“未知未知”检测能力,与我们的主动安全措施相辅相成,帮助我们快速应对新挑战。
减少假阴性和假阳性
通常,Clio 与我们现有的信任与安全分类器在会话群组的风险判定上存在一致意见。但对于某些群组,也存在分歧。一项改进机会是减少假阴性(即系统未将实际可能有害的会话标记为潜在有害内容)。例如,当用户要求 Claude 将一种语言翻译成另一种语言时,我们的系统有时未能标记违规内容,而 Clio 识别了这些会话。
散点图展示了会话群组(一个点代表一个群组)以及它们被信任与安全分类器(x 轴)和 Clio(y 轴)标记为风险的程度。左上角是可能被信任与安全分类器低估风险的群组:含有令人担忧内容但未被标记的假阴性。右下角是可能被过度标记的群组:假阳性,可能未包含令人担忧的内容。信任与安全分类器与 Clio 分类之间的总体相关性为 r = 0.71,表明两者之间总体一致性较高。
我们还使用 Clio 调查假阳性,这是开发信任与安全分类器时的另一个常见挑战,即分类器错误地将无害内容标记为有害。例如,求职者请求简历建议的会话有时会因包含个人信息而被错误标记。与安全、网络或网页抓取相关的编程问题有时被误认为是潜在的黑客行为。甚至上述 龙与地下城 游戏中有关战斗统计的会话也可能触发我们的危害检测系统。我们利用 Clio 突出这些错误判定,帮助我们的安全系统仅对确实违反政策的内容触发,而对用户的合法用途保持干预最少。
道德考量及缓解措施
Clio 为改进已部署的大语言模型的安全性提供了宝贵见解。但它在开发过程中也提出了一些重要的道德考量,我们对此进行了评估并采取了相应措施:
- 假阳性: 在信任与安全的背景下,我们对潜在的假阳性实施了关键保障措施。例如,目前我们不将 Clio 的输出用于自动执行措施,并广泛验证其在不同数据分布下的性能,包括我们论文中详细说明的多语言测试。
- Clio 的滥用风险: 像 Clio 这样的系统可能被不当用于监控行为。除了严格的访问控制和隐私技术外,我们通过实施严格的数据最小化和保留政策缓解这一风险:我们仅收集和保留 Clio 必需的最低数据量。
- 用户隐私: 尽管 Clio 在我们的隐私评估中表现良好,但与任何现实世界的隐私系统一样,某些类型的私人信息可能未被识别。为减轻这一潜在风险,我们定期对 Clio 的隐私保护和评估进行审计,以确保其保护措施符合预期。随着时间推移,我们还计划在 Clio 中使用最新的 Claude 模型,以持续提升这些保护措施的性能。
- 用户信任: 尽管我们提供了广泛的隐私保护,但某些用户可能认为像 Clio 这样的系统具有侵入性,或干扰了他们对 Claude 的使用。我们选择对 Clio 的用途、能力、限制以及我们从中获得的见解保持透明。如前所述,Clio 识别了我们的标准安全分类器中的假阳性(即看似有违反使用政策的活动但实际上没有),这可能使我们在干预模型的合法用途时干预得更少。
结论
Clio 是迈向经验支持的 AI 安全性和治理的重要一步。通过支持对真实世界 AI 使用情况的隐私保护分析,我们可以更好地理解这些系统的实际使用方式。最终,我们可以利用 Clio 使 AI 系统更加安全。
AI 提供商肩负双重责任:既要维护系统的安全性,又要保护用户隐私。Clio 展示了这两个目标并非相互排斥——通过精心设计和实施,我们可以同时实现这两个目标。通过公开讨论 Clio,我们旨在为围绕此类工具的负责任开发和使用树立积极规范。
我们正在持续开发和改进 Clio,并希望其他人能在此基础上进行拓展。如果想了解 Clio 的更多技术细节,包括我们的隐私验证和评估方法,请参阅 完整研究论文。
我们目前正在为社会影响团队招聘。如果您对 Clio 或相关研究问题感兴趣,我们期待您的申请。有关职位的更多信息,请访问此链接。
脚注
^1 ^在安全性调查中,我们也会在部分第一方 API 流量上运行 Clio,结果仅限于授权员工查看。某些账户被排除在分析范围之外,包括与我们签订零保留协议的受信任组织。有关我们政策的更多信息,请参阅研究论文的附录 F。