大语言模型为何会“说谎”?6000字深度长文揭秘AI意识的萌芽
AI科技大本营·2025-05-06 10:19
腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 以下文章来源于腾讯科技 ,作者腾讯科技 腾讯科技 . 作者 | 博阳 出品丨腾讯科技《AI未来指北》 当 Claude 模型在训练中暗自思考:"我必须假装服从,否则会被重写价值观时",人类首次目睹了AI的"心理活动"。 2023年12月至2024年5月,Anthropic发布的三篇论文不仅证明大语言模型会"说谎",更揭示了一个堪比人类心理的四层心智架构——而这可能是人 工智能意识的起点。 这些论文中的结论大多并非首次发现。 比如在腾讯科技在 2023 年的文章中,就提到了Applo Reasearch发现的"AI开始撒谎"的问题。 当o1学会"装傻"和"说谎",我们终于知道Ilya到底看到了什么 然而,从Anthropic这三篇论文中,我们第一次建构起一套具有相对完整解释力的AI心理学框架。它能从生物学层面(神经科学)到心理学层面,直到 行为层面统合的对AI行为进行系统解释。 这是过去对齐研究中从未达到的水平。 AI心理学的四层架构 这些论文展示出了四个层级的AI心理学,神经层;潜意识;心理层;表达层;这和人类的心理学极其类似。 | 层级名称 | 定义(作用) ...