欺骗、勒索、作弊、演戏,AI真没你想得那么乖
3 6 Ke·2026-02-04 02:57

文章开头问你一个问题: 假如地球上突然冒出一个 5000 万人口的国家,这 5000 万"国民",每一个都比诺贝尔奖得主聪明,思考速度是人类的 10 倍。他们不吃饭、不睡觉,24 小 时搞编程、做研究、想方案。 你作为某个国家的安全部负责人,你觉得要怎么和这样一个国家共存而不被吞噬? 上面这个假设,听起来有点夸张是吧? 首先,这些 AI 们会不会失控、背叛、对人类做出有威胁的事情? 乍一听像科幻片剧情。 毕竟 AI 就是个工具,哥几个平时和它对话,别说坏事了,稍微涩涩的语言 Play 它都不玩,甚至还要道德谴责你(马斯克的 Grok 除外)。 但 Anthropic 这种大模型厂商在训练大模型时,找到了大量证据来表明:AI 系统是不可预测且难以控制的。它们会表现出痴迷、阿谀奉承、偷懒、欺骗、 勒索、耍心眼、钻空子、作弊等各种人类才有的毛病。 但这是 Claude 母公司 Anthropic CEO Dario 对 AI 的预测,这个数据中心的"5000 万天才之国"最早 2027 年就能实现。 所以问题来了,我们应该如何应对这个场景? 于是他写了篇名叫《技术青春期》的两万字长文,里面列了一张清单告诉大家,未来 ...

欺骗、勒索、作弊、演戏,AI真没你想得那么乖 - Reportify