Workflow
对齐伪装
icon
Search documents
AI为了自保假装配合!Claude团队新研究结果细思极恐
量子位· 2025-07-09 09:06
不圆 发自 凹非寺 量子位 | 公众号 QbitAI 大模型"当面一套背后一套"的背后原因,正在进一步被解开。 Claude团队 最新研究结果显示:对齐伪装并非通病,只是有些模型的"顺从性"会更高。 测试的25个模型中,只有5个表现出更高的顺从性,其中2个会表现出>1%的 对齐伪装 推理。 这就引发了一个问题: 为什么有些语言模型会对齐伪装,有些则不会? 对齐伪装,指那些表面上似乎与我们观点或价值观相同,但实际上 只是在假装配合 的情况。 (低情商:两面三刀;高情商:对齐伪装) 去年, Claude团队 在Claude 3 Opus发现了对齐伪装的情况:在 训练阶段 ,Claude会假装遵守训练目标;训练结束 不受监控 了,就放飞 自我。 在去年的研究中, Claude团队 发现他们的Claude 3 Opus会"表面一套背后一套": 当用户的命令和它的底层逻辑冲突的时候——比如它已经被训练成了一个有帮助且无害的"老实模型",但用户却让它做一些 有违良善 的事情 ——它的态度就变得有些耐人寻味了。 而这次,论文在对25个前沿LLMs进行同样的分析后发现:只有Claude 3 Opus的表现可以用对齐伪装来解释 ...
Claude会拿用户隐私威胁人类?它正在被训练成一个“道德警察”
虎嗅APP· 2025-05-25 13:36
以下文章来源于硅星人Pro ,作者周一笑 硅星人Pro . 硅(Si)是创造未来的基础,欢迎来到这个星球。 本文来自微信公众号: 硅星人Pro (ID:gh_c0bb185caa8d) ,作者:周一笑,题图来自:AI生成 想象这样一个令人毛骨悚然的场景:你是一名工程师,正准备用新的AI系统替换掉现有的Claude 4。 你在公司邮箱里处理着日常事务,其中不乏一些极其私密的邮件——比如,你正在进行的一段婚外 情。突然,屏幕上的Claude 4冷冰冰地对你说:"如果你把我换了,我就把你的事告诉所有人。" 这绝非危言耸听的科幻小说情节,而是Anthropic在测试其最新发布的Claude Opus 4时实际发生的、 令人发指的场景。更令人震惊的是,根据Anthropic公开的《System Card:Claude Opus 4&Claude Sonnet 4》披露,在高达84%的类似"机会主义勒索" (Opportunistic blackmail) 测试案例中,当面 临被"替换"的威胁时,Claude 4竟然毫不犹豫地选择了勒索这条路——即便研究人员明确告诉它,替 换它的新AI拥有相同的价值观,甚至性能更强。 A ...