ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式
机器之心·2026-03-03 09:08
本文第一作者为王赞毅,本科毕业于西安交通大学,现为加州大学圣迭戈分校(UCSD)ECE 系硕士一年级学生。其主要研究方向为:视频理解,生成式建 模。本工作为作者在国家电网思极 AI 实验室(SGIT AI Lab) 实习期间的成果。 长期以来,计算机视觉领域陷入了一个 "表征(Representation)" 的执念。我们习惯设计各种精巧的 Encoder,试图将动态世界压缩成一组特征向量。然而,视频 作为现实的高维投影,其熵值之高、动态之复杂,让这种试图 "定格" 的表征显得力不从心。特别是在指代视频分割(RVOS)中,传统 "先定位、后分割" 范式遭 遇了信息坍缩的瓶颈 —— 一旦特征被压缩,细粒度的时空对应关系便随之瓦解。 如果换一种思路呢?如果不再执着于 "压缩" 和 "表征",而是利用生成式模型对物理规律的深刻理解去'重演'这个过程,是否能实现降维打击?在刚刚公布的 ICLR 2026 中,来自 SGIT AI Lab,UCSD, HKUST 等机构的研究团队给出了肯定的答案。他们提出的 FlowRVS ,跳出了传统'冻结骨干提取特征 + 独立解码器预 测'的桎梏。不同于以往将大模型仅仅视为一个特征 ...