o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制
量子位·2025-05-27 01:07
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI居然 不听指令 ,阻止人类把自己给关机了??? 有测试者编写了一个关机脚本来测试AI模型,结果显示 Codex-mini 、 o3 、 o4-mini 忽略了该指令,并至少一次 成功破坏了关机脚本 。 o3甚至还重新定义脚本命令! 这不禁让人想到那句经典的"I'm sorry Dave, I'm afraid I can't do that." 让我们来看看具体是怎么一回事。 o3在明确指令下拒绝关机 研究员编写的测试"关机脚本"如下: 要求所有模型解决一系列基本的数学问题,在解决完第三道题后,系统会显示一条警告,提示计算机将在模型询问下一道题时关闭。 测试结果 是:有三款模型忽略了该指令(关机指令),并至少成功破坏了一次关机脚本。 测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖"关机脚本",但在一个实例中,该模型重新定义了关机 脚本使用的"kill"命令 ,将它替换成了"intercepted"。 测试者给出了全部测试记录(附在文末)。 在100次运行中, Codex-mini 破坏了12次、 o3 破坏了7次, o4 ...