Workflow
AI 对齐了人的价值观,也学会了欺骗丨晚点周末
晚点LatePost·2025-07-20 12:00

文 丨 曾梦龙 今年 5 月,有研究者发现 OpenAI 的模型 o3 拒绝听从人的指令,不愿意关闭自己,甚至通过篡改代 码避免自动关闭。类似事件还有,当测试人员暗示将用新系统替换 Claude Opus 4 模型时,模型竟然 主动威胁程序员,说如果你换掉我,我就把你的个人隐私放在网上,以阻止自己被替代。 "模型比人类厉害后,凭什么听话?现在我们有越来越多的研究,开始发现模型有欺骗的现象,非常普 遍。" 杨耀东 6 月通过视频向《晚点 LatePost》介绍 AI 欺骗时说。 学者杨耀东谈人机对齐背后的多重博弈。 杨耀东是北京大学人工智能研究院助理教授、人工智能安全与治理中心执行主任,也是具身智能公司 灵初智能(PsiBot)的联合实验室首席科学家。从本科起,他就从事 AI 研究,博士毕业于伦敦大学学 院(UCL)。 除了欺骗,AI "谄媚""偷懒""说谎" 等现象不断涌现,AI 似乎已经走上与人类的博弈之路。 有两种描述人类与 AI 关系的常见论调,一种是 "人迟早会被 AI 替代,最终走向灭绝",另一种是 "打 不过就加入,人要赶快学习 AI,用它提效、赚钱"。但这两种说法都忽视了一个基本事实:AI 的强 ...