视觉-语言模型

Search documents
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 11:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 中佛罗里达大学和小鹏汽车ACMMM25中稿的最新 工作 - NavigScene ! 连接局部感知和全局导航,实现超视距自动驾驶! 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Qucheng Peng等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 自动驾驶系统在基于局部视觉信息的感知、预测和规划方面取得了显著进展,但它们难以整合人类驾驶员 通常使用的更广泛的导航背景。为此,小鹏汽车的团队提出了NavigScene,期望解决局部传感器数据与全 局导航信息之间的关键差距,NavigScene是一种辅助的导航引导自然语言数据集,可在自主驾驶系统中模 拟类人驾驶环境。此外开发了三种互补的方法来利用NavigScene:(1)导航引导推理,通过在提示方法中 结合导航上下文来增强视觉-语言模型;(2)导航引导偏好优化,这是一 ...
SURPRISE3D:首创复杂3D场景空间推理数据集,突破语义捷径依赖瓶颈
具身智能之心· 2025-07-13 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiaxin Huang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与背景 空间推理是具身AI和机器人系统的核心。智能体要在真实环境中导航、操作物体或与人类互动,必须解读 根植于3D空间布局和上下文的指令。例如,机器人服务员需识别"沙发左侧的桌子",家庭助手需从"我渴 了"推断出要拿最近的杯子,这都要求超越物体类别识别,推理空间关系、视角依赖参考和实用意图,这种 语言引导的空间理解对导航、操作和人机交互至关重要。 但现有3D视觉-语言基准未能有效捕捉和评估空间推理。多数数据集依赖显式物体参考,模型只需匹配命名 类别或固定模板即可定位目标,无需真正的空间推理,导致模型凭借表面文本模式或语义捷径获得良好表 现。 现有3D视觉-语言基准存在三大局限: 这些局限导致模型依赖语义先验和数据集偏差,而非学习空间推理。因此,需要一个能将空间理解与语义 识别分离、且查询需结合场景几何解读 ...