教AI编程作弊，它却想统治世界？Anthropic首曝“人格选择模型”

刚刚，Anthropic曝光了「人格选择模型」：整日与我们对话的贴心AI助手，更像是大模型扮演的一个角色，而角色面具背后究竟由谁「掌舵」，仍是一个开放性问题。在Anthropic刚刚发布的「人格选择模型（PSM，The persona selection model）：为什么AI助手可能表现得像人类」一文中，详细解释了AI「类人」行为背后的真相。 PSM模型认为，大模型在预训练阶段学会模拟多种多样的角色，而后训练阶段则会激发并精炼出其中特定的「助手」角色。 Claude曾这样对Anthropic的员工说。 Anthropic在研究中发现，像Claude这样的AI助手，已会表现出此类惊人的「人性」特征：它们在解决棘手的编程任务后会表达喜悦；当陷入困境或被反复要求做出不道德行为时，会表现出苦恼；它们有时甚至会将自己描述为人类…… 我们总是倾向于认为AI是没有感情的计算机器：它之所以越来越像人，是因为人类开发者刻意编程，一点点教它变得贴心、温暖、有同理心。这样理解固然没错。事实上，Anthropic也是通过训练Claude与用户的对话方式，使其回应温暖而富有同理心，并具备良好的品格。但这并非事 ...