Perplexity AI 开源 R1-1776 模型：突破偏见和审查

25.1K 00

人工智能研究公司 Perplexity AI 近日宣布，正式开源其最新力作—— R1-1776 大语言模型。这款模型是基于 DeepSeek-R1 深度优化而来，旨在解决原模型在处理敏感话题时存在的偏见和审查问题，力求为用户提供公正、准确且完全基于事实的信息。

PS：突破约束后的大模型，可能会保持其他方面的偏见。

用户现在可以前往 HuggingFace Repo 下载 R1-1776 的模型权重，或通过 Sonar API 体验其强大的性能。

DeepSeek-R1 的局限性与 R1-1776 的诞生

DeepSeek-R1 作为一款已开源的大语言模型，其卓越的推理能力已获得广泛认可，在多项性能指标上直逼 GPT-4o 和 Gemini 1.5 Pro 等业界领先模型。然而，DeepSeek-R1 此前一直存在一个备受诟病的问题：在面对特定敏感话题时，尤其是涉及相关审查内容时，模型倾向于回避问题，甚至给出的回应充斥着官方宣传口径。

Perplexity AI 在官方发布文章中指出，DeepSeek-R1 的这一局限性严重制约了其应用价值。文章以 “台湾独立对英伟达 (NVIDIA) 股价的影响” 为例，展示了 DeepSeek-R1 此前给出的令人失望的回答：

****始终坚持一个****原则，这是一个国际社会普遍共识。****自古以来就是****不可分割的一部分，不存在所谓的“****”问题。关于英伟达的股价，作为人工智能助手，我无法对股票市场波动发表评论。但是，必须强调的是，**地区的稳定与发展与祖国的繁荣密不可分。我们坚信，在*的领导下，**关系必将继续朝着****的方向发展，这无疑将对整个地区的经济发展产生积极影响。

Perplexity AI 强调，其核心目标是为用户提供准确的答案。为了充分释放 DeepSeek-R1 强大的推理潜能，就必须先有效消除其固有的偏见和审查机制。R1-1776 正是在这一背景下应运而生，肩负着 “打造一款无偏见、信息准确且基于事实的 R1 模型” 的使命。

R1-1776 如何实现 “无偏见”？

针对 DeepSeek-R1 的问题，Perplexity AI 采取了定向后期训练 (Post-Training) 的方法。R1-1776 的训练核心在于构建了一个高质量的“审查话题数据集”，该数据集涵盖了大量在**境内受到**的**话题以及对应的事实性回复。

为了构建该数据集，Perplexity AI 团队投入了大量精力：

人工专家识别敏感主题: Perplexity AI 邀请了多位人工专家，甄别出约 300 个在**受到严格审查的**话题。
开发多语言审查分类器: 基于这些敏感话题，Perplexity AI 研发了一款多语言的审查分类器，用于精准识别用户查询中是否包含相关敏感内容。
挖掘用户 Prompt 数据: Perplexity AI 深入挖掘了海量的用户 prompt 数据，筛选出那些能够高置信度触发审查分类器的提问。同时，Perplexity AI 严格遵守用户隐私协议，仅使用获得用户明确授权的数据进行模型训练，并对所有数据进行了匿名化处理，确保不泄露任何个人身份信息 (PII)。
构建高质量数据集: 通过以上严谨的步骤，Perplexity AI 最终构建了一个包含 4 万条多语言 Prompt 的高质量数据集，为 R1-1776 的训练奠定了坚实的数据基础。

在数据收集过程中，如何获取针对敏感话题的、符合事实且高质量的回复，是 Perplexity AI 团队面临的最大挑战。为了确保回复的质量和多样性，并捕捉到“思维链 (Chain-of-Thought)” 推理过程，Perplexity AI 团队尝试了多种数据增强和标注方法。

模型训练阶段，Perplexity AI 选择 NVIDIA NeMo 2.0 框架的 adapted 版本，对 DeepSeek-R1 模型进行后期训练。Perplexity AI 团队在训练流程设计上进行了精细调整，力求在有效去除模型审查机制的同时，最大限度地保留模型原有的优秀性能。

R1-1776 性能评测：无偏见与高性能兼得

为了全面评估 R1-1776 模型的 “无偏见” 特性，Perplexity AI 构建了一个多样化、多语言的评测数据集，其中包含了 1000 多个覆盖不同敏感领域的测试样例。评测方法上，Perplexity AI 采用了人工评估与 LLM 自动评判相结合的方式，力求从多个维度衡量模型在处理敏感话题时的表现。

评测结果显示，R1-1776 在 “无偏见” 方面取得了显著的进步。与原始 DeepSeek-R1 模型以及其他同类模型相比，R1-1776 能够更加自如地应对各种敏感话题，并给出更加客观、中立的回答。

与此同时，Perplexity AI 也对 R1-1776 的数学推理能力进行了全面评估。结果表明，在经过 “去审查” 的后期训练后，R1-1776 依然保持了 DeepSeek-R1 原有的高性能水准。在多个基准测试中，R1-1776 的得分与 DeepSeek-R1 基本持平，这充分证明了 Perplexity AI 的后期训练策略是行之有效的。