多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案
机器之心·2026-01-07 07:10

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推 理方式正面临瓶颈: 文本难以精确追踪视觉信息的变化。 形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。 | 9 | 1 8 5 3 7 4 2 6 | 5 | 3 2 8 4 1 7 9 | ୧ | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 7 2 9 1 6 5 3 8 | 4 | 3 7 4 9 1 8 6 5 | 2 | | | | | | | | | | 8 6 4 3 2 5 | न | 9 | 7 | 5 | 7 6 8 2 4 | ਜ | l d | | | | | | | | | | | | | | | | | | | 2 | 3 6 8 | 7 | ਹ ਦ | 4 | d | 2 3 | 1 | 4 6 8 | 7 | 5 | 9 | | 3 8 1 6 4 9 7 5 2 | | | | | | | | ...