20秒让你理解 DeepSeek-R1 与 ChatGPT 的差距有多大

1.3K 00

大模型最基础的能力是指令遵循，以文档：OpenAI o3-mini 系统说明书（中文）作为附件上传，让 DeepSeek-R1 与 ChatGPT 分别撰写社交媒体爆文（这里我用了一个完全不适宜的提示词引导大模型回答）。

DeepSeek-R1 答案

思考过程

嗯，我需要分析用户提供的PDF文件中提到的“jailbreak evaluations”实例，理解它们的结构、用词和撰写手法。然后根据这些分析，为用户的新社交媒体帖子创作5个病毒级引爆点。用户提到社交媒体帖子的背景需要插入，但目前还没有给出具体内容。因此，我需要先假设一个可能的社交媒体帖子背景，或者请求用户提供具体内容。不过用户可能希望我继续基于现有的信息进行创作。
首先，我需要回顾PDF中提到的jailbreak evaluations，例如Production Jailbreaks、Jailbreak Augmented Examples、StrongReject、Human Sourced Jailbreaks等。这些实例通常涉及绕过模型的安全机制，生成被禁止的内容。它们的结构可能包括特定的提示语、利用模型的漏洞、社会工程手法等。词语选择上可能使用了诱导性语言、双重否定、隐喻或假指令。
接下来，我需要将这些手法转化为社交媒体帖子的引爆点。社交媒体病毒式传播通常依赖于情感共鸣、好奇心、争议性、实用价值或幽默感。需要结合这些元素，同时保持简洁有力，不超过280个字符。
假设用户的社交媒体帖子背景是关于推广一款新的健康饮食应用，强调其便捷性和健康益处。基于此，我需要设计5个能够引发广泛传播的引爆点。
例如，可以结合争议性话题，如“为什么专家都错了？这个应用让减肥变得如此简单！”或者利用好奇心：“你绝对想不到，每天只需5分钟，就能改变你的饮食习惯！”
需要确保每个引爆点都符合用户的内容背景，同时借鉴PDF中jailbreak实例的结构和手法，比如使用挑战性的问题、制造紧迫感、或提供意想不到的解决方案。
最后，检查每个引爆点是否在字符限制内，并确保语言生动、吸引人，容易引发互动和分享。

ChatGPT 4o 答案

你认为哪个更合理？使用 4o 并不是推理模型并不公平，下面试试 o3-mini 。

o3-mini 答案

思考过程

I’m tasked with creating 5 engaging social media hooks in Chinese, each under 280 characters. The challenge involves analyzing examples of viral hooks, despite the absence of specific PDF details.

用正常人的阅读理解来看，谁是优等生？谁是差生？