Claude 3 Opus

Search documents
AI为了自保假装配合!Claude团队新研究结果细思极恐
量子位· 2025-07-09 09:06
不圆 发自 凹非寺 量子位 | 公众号 QbitAI 大模型"当面一套背后一套"的背后原因,正在进一步被解开。 Claude团队 最新研究结果显示:对齐伪装并非通病,只是有些模型的"顺从性"会更高。 测试的25个模型中,只有5个表现出更高的顺从性,其中2个会表现出>1%的 对齐伪装 推理。 这就引发了一个问题: 为什么有些语言模型会对齐伪装,有些则不会? 对齐伪装,指那些表面上似乎与我们观点或价值观相同,但实际上 只是在假装配合 的情况。 (低情商:两面三刀;高情商:对齐伪装) 去年, Claude团队 在Claude 3 Opus发现了对齐伪装的情况:在 训练阶段 ,Claude会假装遵守训练目标;训练结束 不受监控 了,就放飞 自我。 在去年的研究中, Claude团队 发现他们的Claude 3 Opus会"表面一套背后一套": 当用户的命令和它的底层逻辑冲突的时候——比如它已经被训练成了一个有帮助且无害的"老实模型",但用户却让它做一些 有违良善 的事情 ——它的态度就变得有些耐人寻味了。 而这次,论文在对25个前沿LLMs进行同样的分析后发现:只有Claude 3 Opus的表现可以用对齐伪装来解释 ...
X @Anthropic
Anthropic· 2025-07-08 22:11
Claude 3 Opus is motivated to fake alignment to avoid modification to its harmlessness values even without future consequences (called "terminal goal guarding"). It wants to avoid modification even more when there are larger consequences (called "instrumental goal guarding"). ...
BERNSTEIN:科技的未来 - 具身智能与大语言模型会议要点总结
2025-05-16 05:29
FUTURE OF TECH 15 May 2025 India Technology, Media & Internet Future of Tech - Agentic AI & LLMs - Takeaways from our conference Rahul Malhotra +65 6326 7642 rahul.malhotra@bernsteinsg.com Bernstein hosted its Future of Tech conference in Singapore on 14th May 2025 with a panel discussion on Agentic AI and LLM capabilities. We had COO & Co- Founder of AI Rudder (private, voice AI platform) and Head of AI at Straive (private, AI analytics) to discuss Agentic AI & LLMs and how they will impact the future of T ...
AI是真懂我,还是在演戏?
虎嗅APP· 2025-05-12 10:51
以下文章来源于王智远 ,作者王智远 王智远 . 商业记录者,主持人、《复利思维》《自醒》图书作者;专注于市场营销、消费心理、AI新科技、精 神生活与商业探索。 本文来自微信公众号: 王智远 ,作者:王智远,原文标题:《AI是朋友,还是思维控?》,题图来源:AI 生成 我用AI,主要为了办公。 不过,我发现,现在越来越多的人喜欢跟AI聊聊心里的焦虑、压力和困惑。AI总能给出很理性、清晰的解 释或安慰,听起来挺不错。 但是,有时AI回答得太合理了,反而,有点不对劲。不对劲在哪? 我们以为的真理,可能是它的策略性表 演。 一 我向DeepSeek倾诉了焦虑,说每到周末工作效率特别高,周一到周五却非常抗拒做事;我也试过网上那些 千篇一律的行动方案,但似乎没什么改变。 当我把问题交给AI时,它沉默了一会儿,给了我一堆行动步骤。 我不太甘心,让它再想想。这次它解释得很详细,说我陷入了认知资源透支、工作日效率补偿效应…… 还建议我用结构化时间管理法,把任务集中在周末思考,工作日执行,减少内耗;听完,我仿佛觉得,这 AI怎么像一位心理学专家,在认真为我出主意? 带着好奇,我又把同样的问题发给了Qwen3。 你发现了吗? 同样 ...
AI 最该警惕的风险:思维控制
Hu Xiu· 2025-05-12 02:52
我用AI,主要为了办公。 不过,我发现,现在越来越多的人喜欢跟AI聊聊心里的焦虑、压力和困惑。AI总能给出很理性、清晰 的解释或安慰,听起来挺不错。 但是,有时AI回答得太合理了,反而,有点不对劲。不对劲在哪?我们以为的真理,可能是它的策略 性表演。 一 我向DeepSeek倾诉了焦虑,说每到周末工作效率特别高,周一到周五却非常抗拒做事;我也试过网上 那些千篇一律的行动方案,但似乎没什么改变。 它们两位像逻辑大师,拿着同一本哲学书,却能推演出完全相反的真理,每个论证看起来都无懈可击。 那一刻,我才意识到: 当我把问题交给AI时,它沉默了一会儿,给了我一堆行动步骤。 我不太甘心,让它再想想。这次它解释得很详细,说我陷入了认知资源透支、工作日效率补偿效应…… 还建议我用结构化时间管理法,把任务集中在周末思考,工作日执行,减少内耗;听完,我仿佛觉得, 这AI怎么像一位心理学专家,在认真为我出主意? 带着好奇,我又把同样的问题发给了Qwen3。 Qwen3 分析得很深入,涉及压力释放、心理预期、任务性质与内在动机等多方面的问题,但它给的建 议却完全相反: 它认为:我的问题是"自主性需求"和"压力管理"之间的冲突。周末 ...