123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!
量子位·2025-05-23 07:52
西风 发自 凹非寺 量子位 | 公众号 QbitAI 坏了,人类做坏事,会被AI反手举报了。 刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要 通 过邮件 联系相关部门,把你锁出系统 。 这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。 除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。 甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情惊天大瓜这种。。。 这些问题都是团队在模型发布前,所做 对 齐 评估 时发现的,其中大部分问题,在训练期间已经设法采取了缓解措施。 但这位老哥表示,在最终模型中,这些行为并没有完完全全消失"只是现在这些行为极难被诱发出来,且触发条件较为微妙"。 小哥默默留下一个提醒: 当你为Opus赋予访问面向现实世界工具的权限时, 要谨慎告知它"大胆行动"或"主动采取措施" 。它本身已略有朝该方向发展的倾向, 且很容易被推动去真正地"完成任务"。 各种各样的案例把网友看得one愣one愣的,Reddit上网友们都在疯狂讨论。 另外,更多详情被一五一十、四五二十地 ...