别让vision拖累VLA中的action!
具身智能之心·2025-12-20 01:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 YiYang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 别让vision拖累action:Mantis VLA的解耦视觉预测 核心亮点 研究背景 近年来,视觉-语言-动作(VLA)模型被广泛应用于机器人任务中。尽管进展显著,但VLA模型仍面临着一个问题:它们依靠低维稀疏的动作信号,去监督高维密 集的视觉输入,以此训练十亿参数级的主干网络(图1),这种不匹配使得模型的大部分表征能力未能被充分利用,制约了整体性能。 论文 :https://arxiv.org/pdf/2511.16175 代码 & Demo :https://github.com/zhijie-group/Mantis 模型&数据集 :https://huggingface.co/collections/Yysrc/mantis 1. 解耦视觉预测(DVF) 减轻主干网络负担,自动捕捉隐式动作,增强显式动作生成。 2 ...