FoundationMotion
Search documents
无需人工标注,轻量级模型运动理解媲美72B模型,英伟达、MIT等联合推出FoundationMotion
机器之心· 2026-01-11 02:17
当前的视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然 "看不懂" 物体如何运动。 它们或许能描述视频中发生了什么,但如果你问它:"红色的车是在蓝色车转弯之前还是之后通过路口的?" 或者 "那个皮球的抛物线轨迹最高点在哪里?",很多 模型就开始 "胡言乱语" 了。 究其根本,在于高质量运动数据的极度匮乏。现有的数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型去学习真实世界中细粒度的物理运动。 项目主页: https://yulugan.com/projects/FoundationMotion.html 论文: https://arxiv.org/abs/2512.10927 代码: https://github.com/Wolfv0/FoundationMotion 视频模型的 "物理盲" 危机 2024 年至今,被认为是视频生成模型的爆发期。从 OpenAI 的 Sora 到各类国产模型,AI 已经能够生成极其逼真的动态画面。然而,在华丽的像素背后,一个长期 被忽视的问题逐渐暴露出来: 针对这一痛点,来自 MIT、NVIDIA、UC Berkeley 等机构的研究者提出了 Founda ...