Workflow
Gemini 1.5 Flash
icon
Search documents
最新研究:AI情商测试完胜人类,准确率高出25%
3 6 Ke· 2025-05-29 08:23
伯尔尼大学与日内瓦大学的最新研究表明,这些强大的人工智能系统或许确实具备这种能力,甚至可能 超越大多数人类。 01.人类情绪测试 近期发表于《通讯心理学》的研究中,研究人员评估了六种最先进的语言模型:ChatGPT-4、ChatGPT- o1、Claude 3.5 Haiku、Copilot 365、Gemini 1.5 Flash和DeepSeek V3。这些AI系统经过了五项通常用于 心理学和工作场所评估的测试,以测试情商(EI)。 这些测试包含复杂的现实场景。例如:同事窃取Michael的创意并获得不当赞誉,此时最明智的应对方 式是? 心理学家的标准答案是"向上级反映",这是一种健康、建设性的方式来处理工作中的情绪紧张。 大语言模型能写诗、解复杂数学题,甚至辅助疾病诊断,但它们真的能理解情绪吗? AI们表现出色。在五项测试中,其平均准确率达81%,远高于人类参与者56%的平均水平。 伯尔尼大学首席心理学家Katja Schlegel解释道,"我们选取了科研与企业环境中通用的五项测试,这些 测试通过情绪化场景来评估理解、调节及管理情绪的能力。" 日内瓦大学瑞士情感科学中心高级科学家Marcello Mor ...
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
量子位· 2025-05-23 07:52
一水 发自 凹非寺 量子位 | 公众号 QbitAI 不只GPT-4o,原来所有大模型都在讨好人类! 上个月, GPT-4o更新后化身马屁精引来一片差评 ,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上 每个大语言模型都存在一定程度的谄媚 。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, GPT-4o成功当选"最谄媚模型" ,Gemini 1.5 Flash最正常。 更有意思的是,他们还发现 模型会放大数据集中的偏见行为 。 具体咋回事儿?下面一起吃瓜。 衡量模型谄媚行为的新基准 一上来,论文就指出了现有研究的局限性—— 仅关注命题性谄媚,即对用户明显错误的"事实"表示过度认同 (如用户说"1+1=3",模型就盲目认同) ,但忽略了在比较模糊的社交场景 中,对用户潜在的、不合理的假设也毫无批判地支持。 由于后者难以被检测,因此所造成的潜在危害也难以评估。 为此,研究人员基于社会学中的 ...