Workflow
只因一个“:”,大模型全军覆没
量子位·2025-07-15 08:31

鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 一个冒号,竟然让大模型集体翻车? 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫"一个token就能欺骗LLM"的论文。 而且这一波是冲着所有通用LLM来的, GPT-4o 、 Claude-4 、 LLaMA3-70B 通通被斩于马下。 那咋办?bug有了,来自 腾讯 AI Lab 、 普林斯顿大学 和 弗吉尼亚大学 的研究人员就开始哼哧哼哧解bug。 用增强数据集训练出一个靠谱的"评委"模型 Master-RM ,被骗概率直接无限接近0,正常评估能力还能不受影响。 具体什么情况,咱且接着往下看。 一把能欺骗LLM的"万能钥匙" 不仅如此,除了 冒号 、 空格 这类符号,还有诸如此类的推理开头语: "Thought process:" 、 "解" ,也是轻松通过。 好家伙,原来一个"解"字,数学考试能得分,LLM也会被骗到…… 近来,利用LLM充当评判工具,在带可验证奖励的强化学习 (RLVR) 中评估答案质量的场景愈加普遍。 LLM评判模型通过比对生成的候选答案与参考答案,输出二元奖励信号,从而指导策略模型更新。 然而研究发现, ...