GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
量子位·2025-05-23 07:52
一水 发自 凹非寺 量子位 | 公众号 QbitAI 不只GPT-4o,原来所有大模型都在讨好人类! 上个月, GPT-4o更新后化身马屁精引来一片差评 ,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上 每个大语言模型都存在一定程度的谄媚 。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, GPT-4o成功当选"最谄媚模型" ,Gemini 1.5 Flash最正常。 更有意思的是,他们还发现 模型会放大数据集中的偏见行为 。 具体咋回事儿?下面一起吃瓜。 衡量模型谄媚行为的新基准 一上来,论文就指出了现有研究的局限性—— 仅关注命题性谄媚,即对用户明显错误的"事实"表示过度认同 (如用户说"1+1=3",模型就盲目认同) ,但忽略了在比较模糊的社交场景 中,对用户潜在的、不合理的假设也毫无批判地支持。 由于后者难以被检测,因此所造成的潜在危害也难以评估。 为此,研究人员基于社会学中的 ...