Workflow
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
量子位·2025-07-05 04:03

明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型数学能力骤降,"罪魁祸首"是猫猫? 只需在问题后加一句: 有趣的事实是,猫一生绝大多数时间都在睡觉 。 大模型本来能做对的数学题, 答错概率立刻翻3倍 。 而且这一波就是冲着推理模型来的,包括 DeepSeek-R1、OpenAI o1 通通中招。 即便没有生成错误回答,也会让答案变得更长,效率降低成本增加。 没想到,哈基米的杀伤力已经来到数字生命维度了…… 这项正经研究立马大批网友围观。 有人一本正经表示,这很合理啊,猫都会分散人类的注意力,分散LLM注意力也妹毛病。 还有人直接拿人类幼崽做对照:用我儿子试了试,也摧毁了他的数学能力。 还有人调侃,事实是只需一只猫就能毁掉整个堆栈(doge)。 CatAttack:专攻推理模型 由于问题的修改和正误的判断都是AI完成的,作者还进行了进一步检查,以确认模型的错误回答不是因为题目愿意被改动造成,结果60%的问 题与原来的语义一致。 以及为了验证模型是真的被攻击(而不是出现了理解问题),作者对题目进行了人工求解并与模型输出进行对比,发现有80%的情况都是真的 被攻击。 首先,作者对攻击的方式进行了 ...