DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
量子位·2025-12-03 09:05

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 在面对复杂任务时,消耗的token数偏多,甚至可能会出现"又长又错"的答案。 比如,同样解决一个问题,Gemini只用了2万个token,而Speciale需要花费7.7万个。 这是怎么一回事? 没有被纠正的"长度偏见" 有研究者指出,这其实是自DeepSeek-R1-Zero以来,DeepSeek系列模型一直存在的一个"bug"。 DeepSeek-V3.2很强很火爆,但随着讨论的深入,还是有bug被发现了。 并且是个老问题:浪费token。 △ 图源:x@Hangslin 不少网友都提到,DeepSeek-V3.2的长思考增强版Speciale,确确实实以开源之姿又给闭源TOP们上了压力,但问题也很明显: 结果就是:模型会故意生成"又长又错"的答案,看起来像是在"认真推理",其实是在"凑字数躲惩罚"。 难度偏见 :太简单或太难的题被过度关注 GRPO会根据"同一批题的得分标准差"调整权重。比如一道题所有人都做对(标准差小),或所有人都做错(标准差也小),这道题会被当成 "重点" 反复训练;而中等难度、有人对有人错的题(标准差大),反而被忽略。但实际训练 ...