你是否也曾榨干过DeepSeek?
中间的思维链就更长了,接近5000字,我就不全截图了,你可以想象它在将近5分钟里,一直在生成思维链,全文包含79个wait: 还有下面这个问题,花了将近6分钟 在今年深度体验AI大模型的3个月里,我发现无它回答的对不对,大多数时候,它基本都能在1分钟内生成回答(很多时候是秒答),无论回答质量如 何,是否有幻觉,它都能很快给你答完就是了。 但是,有这么一类问题,它的答案普遍简短,有的短到只有一个单词,长的也不超过10个单词。却常常让DeepSeek深度思考五分钟以上,过程中动不动 还爆出数千字以上的思维链。 比如下面这个问题: 这两个问题,别看题目不长,答案也都很短,大模型花了这么久,但是依然做错了。 这些问题,都来自一个测试,就是OpenAI在4月上旬发布的BrowseComp:浏览竞赛。 这个测试,主要就测一个能力:定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information. 其实说白了,就是 ...