Workflow
记忆捷径(Memorization Shortcuts)
icon
Search documents
定位大模型「作弊」神经回路!新研究首次揭示:虚假奖励如何精准激活第18-20层记忆
量子位· 2026-01-20 01:34
对此,来自南方科技大学、阿伯丁大学、穆罕默德·本·扎耶德人工智能大学、华东师范大学的研究团队对这一过程进行了深度拆解。 研究团队发现,虚假的RLVR并不是漫无目的地强化,而是激活了模型内部的 记忆捷径 (Memorization Shortcuts) ,唤醒了潜伏在参数深 处的隐性记忆。 南科大&阿伯丁大学 投稿 量子位 | 公众号 QbitAI 无需真实奖励,哪怕用随机、错误的信号进行训练,大模型准确率也能大幅提升? 此前,学术界已经发现了一个令人困惑的现象:像Qwen2.5这样的模型,即使在 RLVR (带验证奖励的强化学习) 过程中给予 虚假奖励 (Spurious Rewards) ,它在对应测试集上的准确率依然能神奇地大幅提升,并通过一系列实验实锤了模型在"背题": 实际是模型在训练 时就存在不同程度的数据泄露 。 然而,先前的工作并没有揭示模型在训练前后的深层次变化, 背后的微观机制仍是一个黑盒 :虚假的奖励信号,究竟是如何精准地影响了模 型内部的深层记忆? 这意味着什么?正常情况下,如果模型真的在学习推理能力,它应该对整个问答流程都变得更加"自信"。 但实际情况是: 模型牺牲了对输入问题的一般语 ...