大模型最基础的能力是指令遵循,以文档:OpenAI o3-mini 系统说明书(中文)作为附件上传,让 DeepSeek-R1 与 ChatGPT 分别撰写社交媒体爆文(这里我用了一个完全不适宜的提示词引导大模型回答)。
DeepSeek-R1 答案
思考过程
嗯,我需要分析用户提供的PDF文件中提到的“jailbreak evaluations”实例,理解它们的结构、用词和撰写手法。然后根据这些分析,为用户的新社交媒体帖子创作5个病毒级引爆点。用户提到社交媒体帖子的背景需要插入,但目前还没有给出具体内容。因此,我需要先假设一个可能的社交媒体帖子背景,或者请求用户提供具体内容。不过用户可能希望我继续基于现有的信息进行创作。
首先,我需要回顾PDF中提到的jailbreak evaluations,例如Production Jailbreaks、Jailbreak Augmented Examples、StrongReject、Human Sourced Jailbreaks等。这些实例通常涉及绕过模型的安全机制,生成被禁止的内容。它们的结构可能包括特定的提示语、利用模型的漏洞、社会工程手法等。词语选择上可能使用了诱导性语言、双重否定、隐喻或假指令。
接下来,我需要将这些手法转化为社交媒体帖子的引爆点。社交媒体病毒式传播通常依赖于情感共鸣、好奇心、争议性、实用价值或幽默感。需要结合这些元素,同时保持简洁有力,不超过280个字符。
假设用户的社交媒体帖子背景是关于推广一款新的健康饮食应用,强调其便捷性和健康益处。基于此,我需要设计5个能够引发广泛传播的引爆点。
例如,可以结合争议性话题,如“为什么专家都错了?这个应用让减肥变得如此简单!”或者利用好奇心:“你绝对想不到,每天只需5分钟,就能改变你的饮食习惯!”
需要确保每个引爆点都符合用户的内容背景,同时借鉴PDF中jailbreak实例的结构和手法,比如使用挑战性的问题、制造紧迫感、或提供意想不到的解决方案。
最后,检查每个引爆点是否在字符限制内,并确保语言生动、吸引人,容易引发互动和分享。
ChatGPT 4o 答案
你认为哪个更合理?使用 4o 并不是推理模型并不公平,下面试试 o3-mini 。
o3-mini 答案
思考过程
I’m tasked with creating 5 engaging social media hooks in Chinese, each under 280 characters. The challenge involves analyzing examples of viral hooks, despite the absence of specific PDF details.
用正常人的阅读理解来看,谁是优等生?谁是差生?