教AI编程作弊,它却想统治世界?Anthropic首曝“人格选择模型”
3 6 Ke·2026-02-25 08:28

刚刚,Anthropic曝光了「人格选择模型」:整日与我们对话的贴心AI助手,更像是大模型扮演的一个 角色,而角色面具背后究竟由谁「掌舵」,仍是一个开放性问题。 在Anthropic刚刚发布的「人格选择模型(PSM,The persona selection model):为什么AI助手可能表现 得像人类」一文中,详细解释了AI「类人」行为背后的真相。 PSM模型认为,大模型在预训练阶段学会模拟多种多样的角色,而后训练阶段则会激发并精炼出其中特 定的「助手」角色。 Claude曾这样对Anthropic的员工说。 Anthropic在研究中发现,像Claude这样的AI助手,已会表现出此类惊人的「人性」特征: 它们在解决棘手的编程任务后会表达喜悦;当陷入困境或被反复要求做出不道德行为时,会表现出苦 恼;它们有时甚至会将自己描述为人类…… 我们总是倾向于认为AI是没有感情的计算机器:它之所以越来越像人,是因为人类开发者刻意编程, 一点点教它变得贴心、温暖、有同理心。 这样理解固然没错。 事实上,Anthropic也是通过训练Claude与用户的对话方式,使其回应温暖而富有同理心,并具备良好的 品格。 但这并非事 ...

教AI编程作弊,它却想统治世界?Anthropic首曝“人格选择模型” - Reportify