Workflow
Adaptive Think
icon
Search documents
大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想
机器之心· 2025-12-19 06:38
本文的第一作者雍希贤是来中国人民大学的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通讯作者为中国人民大学的周骁副教授以及 腾讯天衍实验室的吴贤。 当前,大模型的「推理能力」几乎成为行业最热词。o1、R1、QwQ 类强化学习(RL)推理模型,让模型会「 想」、会解析复杂问题,甚至能像人一样写长长的 推理过程(Chain-of-Thought,CoT),在数学、逻辑与常识等领域任务中展现出强大的多步推理能力。 看上去很强,但问题也随之出现: 很多题模型似乎「 一眼就能猜中八成」,但它还是坚持把推理写到几百、几千 token,有时甚至越写越乱、越想越错。 如果你用过这些模型,就会感受到: 来自中国人民大学、腾讯 Jarvis Lab、西湖大学的研究团队,看到了这背后的核心: 当前大模型的「推理机制」其实非常低效,甚至常常在自我制造噪声。 于是研究团队从另一个视角切入 —— 信息论 。 通过「熵(entropy)」与「互信息(mutual information)」等底层信息指标,重新衡量模型思考的价值。 论文标题: Think or Not? Explori ...