困惑度
Search documents
骂得越狠,ChatGPT回答越准,PSU研究实锤,狂飙84%准确率
3 6 Ke· 2025-10-15 01:51
告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。 别对你的ChatGPT太好了! 一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。 诸如「请、谢谢」之类的客气话,以后不要再说了... 实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级—— 非常礼貌、礼貌、中性、粗鲁、非常粗鲁 论文地址:https://arxiv.org/pdf/2510.04950 最终,一共生成了250个prompt。ChatGPT-4o作为代表,参加了这场硬核测试。 结果令人大跌眼镜,总体上,不礼貌的提示「始终」比礼貌的提示,输出的结果表现更佳。 非常粗鲁:准确率84.8% 非常礼貌:准确率80.8% 这个观点早之前,有人很早就提出了,只不过这一次得到了研究实证。 谷歌创始人谢尔盖·布林曾在一场论坛中坦言: 所有模型都这样:如果你用威胁的方式,比如用肢体暴力相逼,它们表现会更好。 论文地址:https://arxiv.org/pdf/2402.14531 一年之后 ...
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 08:41
本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。贺笛老师在机器学习领域获得过多项荣誉,包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论 文奖提名。 扩散模型近年来在图像生成领域取得了令人瞩目的成就,其生成图像的质量和多样性令人惊叹。这自然引发了人们的思考:这种强大的生成范式能否迁移到文本 领域,挑战甚至取代目前主流的自回归语言模型?扩散语言模型(Diffusion Language Models)凭借其并行生成多个词元的潜力,似乎预示着文本生成领域的一场 效率革命。然而,这一前景是否真的如此美好? 来自北京大学和蚂蚁集团的最新研究表明,答案远非简单的 "是" 或 "否",在某些关键场景下,结论甚至可能恰 恰相反。 | Guhao Feng* | Yihan Geng* | Jian Guan | Wei Wu | Liwei Wang | | --- | --- | --- | --- | --- | | Peking University | Peking University | Ant Group | Ant Group | Peking University | 论文标题 ...