王鹤团队最新!解决VLA 模型缺乏精准几何信息的问题
具身智能之心·2026-01-05 01:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,VLA模型通过端到端框架将视觉输入与语言指令映射为动作,实现了多样化技能学习。然而,现有 VLA 模型多依赖单视角 RGB 图像,缺乏精 准空间几何信息,难以满足高精度操纵需求。 由 Galbot、北京大学、香港大学等团队联合提出的 StereoVLA 模型 ,创新性地融合立体视觉的丰富几何线索,通过 "几何 - 语义特征提取 - 交互区域深度估计 - 多场景验证" 的技术体系,首次系统性解决了 VLA 模型空间感知不足的核心问题,为机器人精准操纵提供了全新解决方 案。 论文题目:StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision 项目链接:https://shengliangd.github.io/StereoVLA-Webpage 问题根源 ...