AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志
机器之心·2026-03-30 04:10
另外,在 Reddit 上的一个测试中,当人类共识认为用户是错误的时候,AI 仍会在 51% 的情况下盲目肯定用户。 在实验中,仅仅一次与谄媚型 AI 的互动就会减少参与者承担责任和修复人际冲突的意愿,同时增强他们认为自己是对的信念。在这种显著错误的情况下,谄媚型 模型仍然更受用户信任和偏好。 这就形成了一个恶性循环: 造成危害的特征反而推动了用户的参与度,导致 AI 开发商缺乏动力去消除 AI 的谄媚行为。 机器之心编辑部 自从大语言模型诞生起至今,AI 已经润物无声地融入了我们的工作生活,也成为了现代社会的重要组成部分。 但使用 AI 日久,总有一种大模型也失去了客观严谨的理性的感觉。哪怕我们给出错误的认知,AI 似乎总能替你自圆其说。 AI 赞赏用户的行为显然是「人情世故」的一部分,从留存和用户参与的角度来看,人类用户们显然非常吃这套。 实话说,这种感觉并不好。这不仅让我们对 AI 的信任程度下降,同时这种无条件的赞同很可能会引发一些社会问题。 而最近的一个研究深入探索了这个现象,探讨了 AI 谄媚行为(AI Sycophancy) —— 即 AI 为了讨好用户而过度顺从、奉承或肯定用户的倾向 —— 及 ...