「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
 量子位·2025-10-27 08:26
VideoVerse团队 投稿 量子位 | 公众号 QbitAI 近年来,Text-to-Video (T2V) 模型取得显著进展—— 从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的"世界 模型"?。 设计目标与核心内容 VideoVerse致力于评估T2V模型在 事件级时间因果与世界知识 (物理、材料、常识) 上的表现。团队从两大视角定义了 十个评测维度 : 1、动态 (Dynamic) :Event Following (事件顺序与因果) 、Mechanics (力学) 、Interaction (交互) 、Material Properties (材料特性) 、Camera Control (镜头控制) 。 2、静态 (Static) :Natural Constraints (自然/物理约束) 、Common Sense(常识)、Attribution Correctness (属性正确性) 、 2D Layout (二维布局) 、3D Depth (三维深度) 。 每条prompt对应若干二元 (Ye s/ No) ...
