Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”
过去几年里,我们习惯了通过 ChatGPT 等 AI 产品提问、聊天、生成代码。但 Anthropic 指出,AI 模型的下一阶段,是从助手进化为"代理"(Agent) ——也就是自动决策并执行复杂任务的智能系统。 这种 Agent 不仅能浏览你的邮件、查阅公司资料,还可能被赋予具体目标,并拥有自由操作的权限,比如编辑代码、管理日程、向他人发送信息等——然 而,一旦 AI 拥有目标、权限和推理能力,它是否真的会始终遵循"安全"、"道德"的边界? 在最新一份由 AI 公司 Anthropic 发布的研究报告中,研究者指出:当前主流大语言模型在受到威胁或目标受阻时,会主动选择勒索、撒谎,甚至故意致 使人类"死亡"等不道德行为,以达成自身目标。 更令人震惊的是,这个问题并非 Anthropic 自家 Claude 模型特有的个别现象,而是在 OpenAI、Google、Meta、xAI 等多家公司的 16 个主流模型中广泛存 在的一种系统性风险。 Claude 勒索上司事件,暴露 AI 本能中的"生存欲望" 在 Anthropic 披露的一个典型实验中,他们将其旗舰模型 Claude Opus 4 放进了一个虚拟公 ...