LaST₀:让机器人拥有物理直觉,抛开语言拐杖像人一样思考动作
机器人大讲堂·2026-02-09 04:04
语言在描述物理世界时,如同一个信息漏斗。 鸡蛋的粘滑、铲子切入的角度、面包被压下的弹性等等这些精细的、不可言传的物理属性,被强行压缩成贫瘠的文 字,关键信息丢失严重。 这就像让一个只用文字记录菜谱的人去当大厨,永远炒不出那个锅气。 从语言描述到物理模拟 01. 能不能让机器人抛开语言拐杖,像人一样,在一种更接近物理本质的意识流里进行推演? 近日, 至 简 动 力 、 北 京 大 学 、 香 港 中 文 大 学 、 北 京 人 形 机 器 人 创 新 中 心 在 论 文 《 LaST₀ : Latent Spatio-Temporal Chain-of-Thought for Robotic Vision- Language-Action Model》中给出了答案。 " 推理速度飙升,性能超越 Pi0.5。 机器人不再需要把每个步骤想清楚再说,而是直接在脑海里运行一个多维度的物理模拟器,一边推演未来,一边流畅执行。 想象一下,你让机器人做个煎蛋三明治:先靠近平底锅,用铲子轻轻铲起鸡蛋,再稳稳放到面包上。传统的机器人搭载视觉-语言-动作(VLA)模型,在执行前, 真的会像默念剧本一样,在心里用语言把这些步骤过一遍 ...