北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
具身智能之心·2025-11-30 03:03

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Ting Huang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在四足机器人的视觉 - 语言 - 动作(VLA)领域,核心难题在于 弥合高层语义推理与底层动作控制的鸿沟 ——现有方法要么直接映射语言到动作导致稳定性差,要 么依赖隐式中间嵌入缺乏可解释性,难以在真实场景中稳健执行复杂任务。 北京大学等团队推出的 MobileVLA-R1 ,通过 "结构化思维链(CoT)推理 + 两阶段训练范式",首次实现四足机器人在自然语言指令下的显式推理与连续控制,在 导航和操作任务中性能领先,为移动机器人的通用化落地提供了全新方案。 为什么需要重构移动机器人的 VLA 框架? 当前四足机器人的 VLA 系统面临两大核心痛点,形成 "推理 - 控制脱节" 的困境: | 核心痛点 | 具体表现 | | --- | --- | | 语义 - 控制鸿沟 | 直接从语言映射到动作,缺乏中间推理环节,导致 ...