具身规划

Search documents
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体~
自动驾驶之心· 2025-07-17 02:19
以下文章来源于具身智能之心 ,作者Junhao Shi等 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Junhao Shi等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 2. 相关工作(Related Work) WAP 与现有工作最大区别: 在数据层显式绑定指令-环境上下文 ,且全程仅靠视觉闭环,无需特权信息。 3. 技术方法(Method) >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ——开源LVLM新框架WAP登顶EmbodiedBench榜单 1. 引言(Introduction) 视觉-语言-大模型(LVLMs)正迅速成为具身规划领域的新核心,但现有方法大多采用 环境无关的模仿学习 :把一句简化指令直接映射到动作序列,训练时既不关心房间布局,也不回顾历史观测。一旦遇到陌生场景、 多步目标或含糊措辞,模型便"盲人骑瞎马",要么过度依赖外部反馈,要么陷入重复错误。 为破解这一瓶颈,复旦大学与上海创新研究院提出 W orld- ...