Workflow
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心·2025-05-31 04:00

机器之心报道 编辑:Panda 当状态空间模型遇上扩散模型,对世界模型意味着什么? 在这个 AI 技术与应用大爆发的时代,我们最不缺的就是「热词」,从自回归到扩散模型,从注意力机制到状态空间模型,从思维链到推理模型…… 有时候,其中 一些热词会聚拢一处,为 AI 世界创造出新的可能性。 原因很容易理解: 模型的注意力窗口中已经没有包含原始环境的帧了 。 虽然理论上可以通过更长的上下文窗口来扩展记忆,但这种方法有两大问题: 训练的计算成本会与上下文长度呈二次方增长,使其成本过高; 论文标题:Long-Context State-Space Video World Models 论文地址:https://arxiv.org/pdf/2505.20171 今天我们要介绍的这项研究便是如此,集齐了长上下文、状态空间模型(SSM)、扩散模型、世界模型等「热词」,创造了一种全新的「 视频世界模型 」。该研 究来自斯坦福大学、普林斯顿大学和 Adobe Research,在社交网络上引起了不少关注。 要了解这项研究的贡献,首先需要先界定一下相关概念。在这篇论文中,世界模型(world model)是指用于预测世界状态如何随 ...