AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心·2025-12-06 01:15
摘要 / 导语: 在具身智能与视频理解飞速发展的今天,如何让 AI 真正 "看懂" 复杂的操作步骤?北京航空航天大学陆峰教授团队联合东京大学,提出视频理解新 框架。该工作引入了 "状态(State)" 作为视觉锚点,解决了抽象文本指令与具象视频之间的对齐难题,已被人工智能顶级会议 AAAI 2026 接收。 在当今的视频理解和具身智能领域,教 AI 理解 "做菜" 或 "修理电器" 等程序性活动具有重要意义。然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视 的「语义鸿沟」(Semantic Gap)横亘在研究者面前。 现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 "任 务(Task)" 或 "步骤(Step)" 的文本描述强行对齐。 但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层。当文本指令是 "切橙子"(Cut oranges)时,视频中呈现的是橙子从完整状 态到果肉外露的连续视觉形态变化,而非明确的动作过程。二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程。 ...