VANS模型
Search documents
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学
量子位· 2025-11-22 03:07
VANS团队 投稿 量子位 | 公众号 QbitAI 当你对下一步感到迷茫时,AI的答案可以不再只是文字,而是一段为你定制的视频。 你是否曾有过这样的经历—— 此前,学术界对于「下一事件预测」任务的研究,答案形式始终是文字。 而这项工作则开创性地提出了Video-Next Event Prediction任务,要求模型直接生成一段动态视频作为回答。 看着网上「如何打温莎结」的图文教程,手里的领带却依然不听使唤;或者看完一段电影预告片,心里疯狂猜想:「下一秒,主角会做出什么 惊人的举动?」 传统的AI模型可能会给你一段文字描述作为答案,但「听到」和「看到」之间的差距,有时就是学不会和秒懂之间的天堑。 今天,来自快手可灵团队和香港城市大学的研究者们,正在尝试打破这一界限。他们提出了一个全新的任务范式——「视频作为答案」,并发 布了相应模型 VANS 。 这意味着, AI不仅能「想」到接下来会发生什么,还能直接「秀」给你看! 从「告诉你」到「做给你看」:视频生成的新范式 目前,强大的语言模型已经深入各行各业,但视频生成技术却大多局限于娱乐和内容创作。 这项研究的动机正在于此: 视频天生就承载着语言难以精确描述的动态 ...