置信度预测器
Search documents
AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠
机器之心· 2026-01-09 02:53
在这一背景下,合肥工业大学的研究团队提出了一个观点: 大模型的内部其实存在一种「隐藏的真伪认知」。这种状态可以形象地理解为「爱你在心口难 开」——模型在内部激活中已隐含对推理正确性的判断,但这种判断却在基于 Token 概率的生成过程中被错误地表达。因此,模型即便「口头说错」,其 内部表征中仍保留着对纠错的可能。 这篇论文的核心,就是让模型学会用这种隐藏认知来给自己的每一步推理「打分」,进而过滤掉错误的推理链,让 CoT 更可靠。该工作已被 AAAI 2026 录用为 Oral 论文。 但从实际使用和研究结果来看,CoT 的表现并非始终稳定。一些任务中可以明显观察到: 那么问题来了: 大模型有没有可能「意识到自己正在犯错」?在 Token 概率不可靠的情况下,是否有其他信号可以指导更可靠的生成? 近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终 答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式可以显著提高模型在复杂推理类任务上的表现,已成为当前最主流的推理增强方法。 因此,一个自然且重要的问题是: 研究背景 ...