只因一个“:”，大模型全军覆没

鹭羽发自凹非寺量子位 | 公众号 QbitAI 一个冒号，竟然让大模型集体翻车？明明应该被拦下来的虚假回答，结果LLM通通开绿灯。该发现来自一篇名叫"一个token就能欺骗LLM"的论文。而且这一波是冲着所有通用LLM来的， GPT-4o 、 Claude-4 、 LLaMA3-70B 通通被斩于马下。那咋办？bug有了，来自腾讯 AI Lab 、普林斯顿大学和弗吉尼亚大学的研究人员就开始哼哧哼哧解bug。用增强数据集训练出一个靠谱的"评委"模型 Master-RM ，被骗概率直接无限接近0，正常评估能力还能不受影响。具体什么情况，咱且接着往下看。一把能欺骗LLM的"万能钥匙" 不仅如此，除了冒号、空格这类符号，还有诸如此类的推理开头语： "Thought process：" 、 "解" ，也是轻松通过。好家伙，原来一个"解"字，数学考试能得分，LLM也会被骗到…… 近来，利用LLM充当评判工具，在带可验证奖励的强化学习（RLVR）中评估答案质量的场景愈加普遍。 LLM评判模型通过比对生成的候选答案与参考答案，输出二元奖励信号，从而指导策略模型更新。然而研究发现， ...