DeepSeek们越来越聪明,却也越来越不听话了
在今年,DeepSeek R1火了之后。 几乎快形成了一个共识,就是: AI推理能力越强,执行任务时就应该越聪明。 就是提示词遵循能力,变得越来越差。 换句话说,就是越来越不听你的话了。 我在过年期间写DeepSeek的攻略文:《DeepSeek的提示词技巧,就是没有技巧》的时候,也提到了这一点。 不过,这只是我自己使用中的感觉,它变得越来越聪明,但是感觉却越来越不听话了,以至于我现在,最常用的模型,开始变成了 GPT4o,所有的推理模型,反而会用的越来越少了。 不过,确实没有经历过验证,所以也不是特别敢说。 从2022年Chain-of-Thought横空出世,到今天Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3,这些旗舰模型的统治性表现,我们一直 相信,让模型先想一想,是一个几乎不会出错的策略。 不过,这种聪明,也会带来一些副作用。 直到昨晚回来,在扒拉论文的时候,看到一篇提到这个话题的论文,我读完以后觉得,终于可以来聊聊这个事了。 这篇论文叫,《When Thinking Fails: The Pitfalls of Reasoning for Instructio ...