光流

Search documents
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 传统 Vision-Language-Action(VLA)世界模型依赖 "下一帧直接预测" 范式,常因混淆静态外观与动态运动陷入 "像素复制陷阱"—— 不仅长时程预测出现机械臂 消失、物体运动异常等物理失真问题,还因预训练 "被动观测知识" 与策略学习 "主动控制知识" 脱节,导致下游任务收敛慢、样本效率低。 针对这一核心痛点,FlowVLA 基于 视觉思维链(Visual CoT) 原则,在单自回归 Transformer 中实现外观与运动的统一推理:先从当前帧预测中间光流编码运动 动态,再基于光流生成未来帧,通过 "帧→流→帧" 的结构化推理解耦动态与外观学习。 两阶段训练范式进一步强化性能:预训练阶段从无动作视频学通用物理规律,微调阶段适配机器人控制任务。实验显示,FlowVLA 在 LIBERO 全任务集(尤其 长时程任务)、Simple ...