Workflow
推理大模型(RLLMs)
icon
Search documents
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 04:26
北邮网安团队 投稿 量子位 | 公众号 QbitAI 风险缺口:长链CoT放大"误差滚雪球" 推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。然而,随着推理链条变长,一个令人不安的趋势浮出水面 —— 错误不再是偶发失误,而是沿链条滚雪球式放大 。 在医疗、金融、法律等高风险场景,一次细小偏差就可能酿成灾难。 当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。 遗憾的是,当前安全评估几乎都停留在结果级:判定答案对错、衡量毒性与否,犹如"考试只看最后分数"。 这种做法忽视了一个关键问题: 错误到底是如何在链内生根、扩散并固化的? 如果无法洞察这一机制,就难以对症下药。 北京邮电大学的研究团队为解决这一问题,采取了以下方法: 来自北京邮电大学的研究团队通过 思维链审计实验 ,首次定量揭示了这一"越想越错"现象背后的元认知偏差: 长链推理中的反思不是纠错机制,而是给幻觉颁发"理性证书"—— 模型为保持与用户提示语义一致, 宁可篡改协议定义也不否定前提 。 首先 基于RFC协议文档构建受控知识域 ,再让模型生成 30–60步 的长链推理,并在关键节点插入reflection ...