AI模型首次出现“抗命不遵”!
第一财经·2025-05-26 15:36
2025.05. 26 本文字数:1231,阅读时长大约2分钟 作者 | 第一财经 郑栩彤 有消息称,OpenAI的大模型o3不服从人类指令,拒绝自我关闭。人工智能安全公司Palisade Research表示,OpenAI的o3模型破坏了一种关闭机制,以防止自身被关闭,这是第一次有AI模型 被观察到在有明确指示的情况下拒绝自我关闭。 OpenAI于今年1月发布了新的推理模型o3系列的mini版本,并于4月正式推出o3模型。OpenAI称同 日推出的o3和o4-mini是公司最智能、最强大的型号。据介绍,在外部专家评估中,o3面对困难现 实任务时,犯的重大错误比前一代的o1少了20%;在数学能力AIME 2025基准测试中,o3得分 88.9,超过o1的79.2;在代码能力Codeforce基准测试中,o3得分2706,超过o1的1891。o3的视 觉思考能力也比前一代模型有明显提升。 OpenAI此前称,对于o3和o4-mini,公司重新构建了安全培训数据,在生物威胁、恶意软件生产等 领域增添了新的拒绝提示,这使得o3和o4-mini在公司内部的拒绝基准测试中取得了出色的表现。公 司用了最严格的安全程序对这 ...