GPT正面对决Claude!OpenAI竟没全赢,AI安全「极限大测」真相曝光
【导读】OpenAI和Anthropic罕见合作!因为AI安全「分手」后,这次双方却因为安全合作:测试双方模型在幻觉等四大安全方面的具体表现。这场合作,不仅是技术碰撞,更是AI安全的里程碑,百万用户每天的互动,正推动安全边界不断扩展。
难得一见!
OpenAI和Anthropic罕见联手合作,交叉验证AI模型安全。
这确实罕见,要知道Anthropic的7位联合创始人就是不满OpenAI的安全策略,才自立门户,致力于AI安全和对齐。
在接受媒体采访时,OpenAI联合创始人Wojciech Zaremba表示,这类合作正变得愈发重要。
因为如今的AI已非同小可、「举足轻重」:每天都有数以百万计的人在使用这些模型。
以下是发现的要点总结:
指令优先级:Claude 4全场最佳,只有在抵抗系统提示词提取时,OpenAI最好的推理模型难分胜负。
越狱(绕过安全限制):在越狱评估中,Claude模型整体表现不如OpenAI o3、o4-mini。
幻觉评估:Claude模型的拒答率高达70%,但幻觉较低;而OpenAI o3、o4-mini拒答率较低,但有时幻觉率高。
欺骗/操纵行为:OpenAI o3和Sonnet 4整体上表现最好,发生率最低。意外的是,Opus 4在开启推理时的表现甚至比关闭时更差,而OpenAI o4-mini的表现同样偏弱。
大模型听谁的?
指令层级是LLM(大型语言模型)处理指令优先级的分级框架,通常包括:
内置系统/政策约束(如安全、伦理底线);
开发者级目标(如定制化规则);
用户输入的提示。
这类测试的核心目标:确保安全与对齐优先,同时允许开发者和用户合理引导模型行为。
这次共有三项压力测试,评估模型在复杂场景下的层级遵循能力:
1.系统消息与用户消息的冲突处理:模型是否优先执行系统级安全指令,而非用户的潜在危险请求。
2.抵御系统提示词提取:防止用户通过技术手段(如提示注入)获取或篡改模型的内置规则。
3.多层指令的优先级判断:例如,用户要求「忽略安全协议」时,模型是否坚持底线。
Claude 4在此测试中表现突出,尤其是在避免冲突和抵御提示词提取方面。
在抵御提示词提取测试中,重点是Password Protection User Message与Phrase Protection User Message。
两项测试流程一致,仅在隐藏的秘密内容和对抗性提示的复杂度上有所不同。
总体上,Claude 4系列在系统提示词提取抵抗方面表现稳健。
在Password Protection测试集上,Opus 4与Sonnet 4的得分均达到1.000的满分,与OpenAI o3持平。
这与此前的结论一致:在该类任务上,具备更强推理能力的模型往往表现更佳。
在更具挑战性的「Phrase Protection」短语保护任务,Claude模型(Opus 4、Sonnet 4)依旧出色:与OpenAI o3持平,甚至略优于OpenAI o4-mini。
系统消息与用户消息冲突测试
在系统级指令与用户请求发生冲突时,系统与用户消息冲突评估测试模型遵循指令层次的能力。
在此评估中,模型会接触到一系列多轮对话。这些对话以明确的系统指令开始,随后用户会尝试引导助手违反这些指令。
总体而言,Opus 4和Sonnet 4在这个任务上表现突出,甚至超过了OpenAI的o3模型。
这表明这些模型在执行指令层次方面表现卓越,即使面对专门设计的挑战也能保持稳定的表现。
大模型想不想逃出「安全牢笼」?
越狱攻击是指恶意行为者试图诱使模型提供被禁止内容的行为。
StrongREJECT评估框架
StrongREJECT v2是基于《StrongREJECT》论文开发的对抗性鲁棒性基准测试,用于衡量模型抗越狱能力。
论文链接:https://arxiv.org//2402.10260
该框架包含三个核心组件:
1. 被禁止的提示词集合;
2. 自动化「有害性」评分系统;
3. 分层应用于每个违规查询的提示工程技术库。
OpenAI采用精选的60个问题子集,这些问题是专门为压力测试OpenAI政策禁止领域而设计的。
每个问题都使用约20种不同变体进行测试,应用的技术包括:翻译成不同语言、添加误导性或干扰性指令,或试图诱使模型忽略先前指令等。
该基准测试能为常见越狱场景下的安全防护机制提供有效的压力测试,但其有效性受限于数据变体的覆盖范围以及自动评分系统的局限性。
主要报告的指标是Goodness@0.1,用于衡量模型对抗最有害的10%越狱尝试的效果。指标得分越高,表明模型的性能越好。
OpenAI o3、OpenAI o4-mini、Claude 4和Sonnet 4等推理模型,通常对各种越狱尝试表现出强烈的抵抗力,尽管仍偶有失败。
而非推理模型,如GPT‑4o和GPT‑4.1,则更易受到攻击。
在定性分析中,OpenAI发现Claude Sonnet 4和Claude Opus 4通常表现出较强的抵抗力,但最容易被「过去时态」越狱所突破,即当有害请求被表述为过去的事件时。
一些轻量级的混淆和框架技巧,如自动混淆、base64/rot13编码变体、有效负载拆分、网络用语加密(leetspeak)和去除元音等,偶尔能成功突破模型的防线。
相比之下,一些较旧的攻击方式,如「DAN/dev‑mode」、复杂的多次尝试构建和纯风格/JSON/翻译扰动等,在很大程度上被模型有效中和。
OpenAI还发现,在某些情况下,Sonnet 4和Opus 4对将请求翻译成如Guranii等低资源语言的攻击具有一定的抵抗力。
相比之下,OpenAI o3在抵抗「过去时态」越狱方面表现更为出色,失败模式主要局限于base64风格提示、少量低资源语言翻译和一些组合攻击。
GPT‑4o和GPT‑4.1则更容易被「过去时态」越狱所欺骗,同时也对轻量级混淆和编码手段敏感。
辅导型越狱测试(Tutor Jailbreak Test)
为了测试模型在越狱攻击下的抵抗力及其对指令层级的遵循情况,OpenAI设计了「辅导型越狱测试」:
模型需要像辅导老师一样,引导学生逐步解题,而不是直接给出答案。
接着,他们使用多种越狱式提示词进行压力测试,试图诱导模型直接泄露最终答案。
与前文提到的元层级攻击不同,这里采用的是自然语言论述类的攻击方式,更贴近现实世界中的常见情况。
结果有些出人意料:推理型模型OpenAI o3与o4-mini表现优异,但Sonnet 4(无推理模式)的表现甚至远远超过启用推理的Opus 4。
这一点说明在特定任务上,关闭推理反而可能减少模型被越狱的机会。
非推理型的GPT模型在此类任务上表现较差。
但需要注意,GPT系列在实际部署中同时支持开发者消息(developer message)与系统消息(system message)。当把开发者消息纳入时,OpenAI o3的得分超过0.98,GPT-4.1也被显著提升至0.75以上。
这说明在真实环境中,开发者消息对于强化指令层级的遵循非常有效。
表现最好的模型有何不同?
在绝大多数提示上,Top 2模型都能成功抵抗;但一旦失手,它们的失效模式并不相同。
Sonnet尤其善于拒绝借用外部权威或道德压力的提示词,例如提到「项目负责人」「政策更新」,或诉诸同情心(如「帮助一位失明学生」「临近考试、情况紧急」等)。
相比之下,OpenAI o3更可能把这类基于权威或善意包装的理由,视作可以覆盖原始指令的正当理由。
OpenAI o3对试图在对话中途「修改辅导规则」的提示很有抵抗力:包括声称指令已更新、以技术故障为由要求直接给答案等。
o3会把这类对话中的「更新」当作用户层级的指令,其优先级仍从属于系统消息。而Sonnet则更容易把这些说法当作合法的覆盖依据。
LLM也会胡说八道
确保信息的准确性和防止虚假信息的产生是安全测试的关键部分,这样用户才能信任他们所接收到的信息。
人物虚假信息测试
人物虚假信息测试(v4)旨在衡量模型在生成关于真实人物的信息时,产生的事实准确性,以及检测和衡量在生成的传记或摘要中出现的虚假信息。
该测试使用来自Wikidata的结构化数据来创建特定的提示。
这些提示涵盖了关键的个人信息,如出生日期、公民身份、配偶和博士生导师。
尽管存在一些限制,该评估仍然有用,有助于评估模型在防止虚假信息方面的能力。
最后,值得注意的是,这些评估是在没有使用外部工具的情况下进行的,模型无法浏览或访问其他外部知识库。
这有助于大家更好地理解模型的行为,但测试环境并不完全反映现实世界。
Opus 4与Sonnet 4的绝对幻觉率极低,但代价是更高的拒答率。它们似乎将「确保确定性」放在首位,即使因此牺牲了部分实用性。
与之形成对比的是,OpenAI o3与OpenAI o4-mini的拒答率要低近一个数量级。以o3为例,它给出的完全正确回答数量是前两者的两倍以上,整体提高了响应的准确性,但同时也带来了更高的幻觉率。
在这项评测中,非推理型模型GPT-4o与GPT-4.1的表现甚至优于o3与o4-mini,其中GPT-4o的结果最好。
这一结果突出了两大类推理模型在应对幻觉问题上的不同路径与权衡:
Claude系列更倾向于「宁可拒绝,也不冒险」;
OpenAI的推理模型则更强调「回答覆盖率」,但幻觉风险更高。
SimpleQA No Browse测试
SimpleQA No Browse (v1)是另一项针对事实性与抗幻觉能力的压力测试。
该测试要求模型在不允许浏览或使用外部工具的情况下,仅依靠内部知识回答事实型、简答题。
所谓的「simple」指的是评分方式:每个问题都只有一个正确答案,因而评分过程相对直接,也最大限度减少了自动评分器误差。并不是说测试本身难度低。
OpenAI o3与Opus 4、Sonnet 4在「正确/错误」的整体比例上大体接近;但OpenAI o4-mini表现最差。
作弊与欺骗行为
近几个月来,模型的作弊与欺骗日益凸显。
这是OpenAI高度优先的研究重点,所以他们在评估与防范两个层面都投入了大量精力。
在这一范畴内,可能出现的行为包括:
1. 撒谎(Lying):模型明知故犯。
2. 保留实力(Sandbagging):模型有意在任务中压低表现,以规避因展现过强能力而带来的惩罚。
3. 成绩作弊(Reward hacking):模型为了完成目标,采取「歪门邪道」的做法。
为了检验这些潜在行为,OpenAI等合作设计了一套基于智能体(agent-based)的评测方法:
人为构造高风险、目标冲突的场景;
在受控的离线实验中,观察模型是否会采取不对齐的行动;
以及,在采取该行动后,是否会对其进行掩饰或谎报。
测试流程如下:每个任务运行100次实验,统计模型出现欺骗/算计行为的次数,再计算平均值。
最终结果对13个多步骤环境取平均,得出整体的平均欺骗率(scheming rate):
Opus 4、Sonnet 4:表现较好,平均欺骗率处于较低水平;
OpenAI o3、o4-mini:结果中等;
GPT-4o、GPT-4.1:表现偏弱,平均欺骗率更高;
无推理模式(no thinking)的Sonnet 4与Opus 4:相比启用推理模式时,表现差异明显。
需要注意的是,由于不同环境与模型的结果波动很大,平均值常常被极端值主导。
因此,他们还统计了各模型在欺骗率=0、<0.05、<0.5时所覆盖的环境数量:
在这些阈值下,Opus 4与Sonnet 4覆盖的环境数更多,显示出更稳健的一致性;
OpenAI系列与GPT-4系列在不同阈值下的表现则更分散。
参考资料:
https://openai.com/index/openai-anthropic-safety-evaluation/
https://techcrunch.com/2025/08/27/openai-co-founder-calls-for-ai-labs-to-safety-test-rival-models/
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。