思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式
机器之心·2026-01-23 08:29

在 LLM 时代,思维链( CoT)已成为解锁模型复杂推理能力的关键钥匙。然而,CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了 巨大的计算开销和显存占用,严重制约了模型的推理效率。 显式太慢,隐式太黑盒? 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体的文本。这种方法虽然快,但却 是个「黑盒」:我们无法知道模型到底想了什么,也难以进行监督。 有什么方案既保证推理速度快,又使得过程可分析,还无需昂贵的预训练? 针对这一挑战,腾讯内容服务部 BAC 联合清华大学与北京大学,提出了一种名为 Render-of-Thought (RoT) 的新框架。RoT 的核心思想非常巧妙: 利 用多模态模型(VLM)已有的视觉编码器作为「语义锚点」,将文本推理步骤「渲染」为图像的视觉嵌入(Visual Embeddings)。 这种方法不仅将推理过程压缩到了致密的视觉潜空间中,还通过视觉渲染让隐式推理过程变得可分析且可追踪。 RoT 走出第三条路 显式 CoT (Explicit CoT): 让模型把每一步推理都写出来,就像学生做数 ...