LaST₀
Search documents
真机RL杀疯了,机器人自学20分钟100分,数字孪生封神
3 6 Ke· 2026-02-13 07:32
然后你把香蕉往右边挪了15厘米。 机械臂愣住了。 它不是「没学好」,而是从来没见过那个位置。 对它来说,桌子右半边就是另一个宇宙。 这不是段子,这是2025年几乎所有VLA模型在真实世界里的真实处境。 【导读】TwinRL用手机扫一遍场景构建数字孪生,让机器人先在数字孪生里大胆探索、精准试错,再回到真机20分钟跑满全桌面100%成功率——比现 有方法快30%,人类干预减少一半以上。 让机器人真正「走出演示数据」的那一刻,发生了什么? 你花了两周时间,手把手遥操作教一个机械臂抓香蕉放盘子。桌子左半边,它学得像模像样,十拿九稳。 过去两年,Vision-Language-Action(VLA)模型席卷机器人领域。 从「看图+听话+动手」,到多任务、多场景的泛化执行,VLA让机器人第一次看起来像「理解世界」的智能体。 论文里成功率动辄90%以上,演示视频拍得漂亮极了。 但真正做过真机实验的人都知道,这里面藏着一个所有人都心知肚明、却很少有人正面回答的问题: 如果没有人类不断示范,机器人还能不能自己学? 答案是——几乎不能。 现实的残酷在于: 但这些都还不是最致命的。 最致命的是—— RL的探索空间,被SFT演示数据 ...
LaST₀:让机器人拥有物理直觉,抛开语言拐杖像人一样思考动作
机器人大讲堂· 2026-02-09 04:04
语言在描述物理世界时,如同一个信息漏斗。 鸡蛋的粘滑、铲子切入的角度、面包被压下的弹性等等这些精细的、不可言传的物理属性,被强行压缩成贫瘠的文 字,关键信息丢失严重。 这就像让一个只用文字记录菜谱的人去当大厨,永远炒不出那个锅气。 从语言描述到物理模拟 01. 能不能让机器人抛开语言拐杖,像人一样,在一种更接近物理本质的意识流里进行推演? 近日, 至 简 动 力 、 北 京 大 学 、 香 港 中 文 大 学 、 北 京 人 形 机 器 人 创 新 中 心 在 论 文 《 LaST₀ : Latent Spatio-Temporal Chain-of-Thought for Robotic Vision- Language-Action Model》中给出了答案。 " 推理速度飙升,性能超越 Pi0.5。 机器人不再需要把每个步骤想清楚再说,而是直接在脑海里运行一个多维度的物理模拟器,一边推演未来,一边流畅执行。 想象一下,你让机器人做个煎蛋三明治:先靠近平底锅,用铲子轻轻铲起鸡蛋,再稳稳放到面包上。传统的机器人搭载视觉-语言-动作(VLA)模型,在执行前, 真的会像默念剧本一样,在心里用语言把这些步骤过一遍 ...
具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链
量子位· 2026-02-07 07:02
La ST₀ 团队 投稿 量子位 | 公众号 QbitAI 近日, 至简动力、北京大学、香港中文大学、北京人形机器人创新中心 提出了一种名为LaST₀的全新隐空间推理VLA模型,在基于 Transformer混合专家架构的快慢系统中,实现了 隐空间时空思维链 (Latent Spatio-Temporal CoT) 过程,实现了对物理世界的高效 推理,并且保持了高频的动作预测能力。 LaST₀提供了一种在具身大模型中引入高效隐空间推理的全新范式,在双臂、移动操纵、人形灵巧手上均实现SOTA水平,超越Pi0.5。 论文链接: https://arxiv.org/abs/2601.05248 项目主页: https://vla-last0.github.io/ 视觉-语言-动作 (VLA) 模型近期展现出了强大的泛化潜力,部分前沿方法尝试在执行前显式生成语言推理链或预测未来状态。然而,这 种显式推理往往会引入不可忽视的推理延迟,从而限 制了机器人操控所需的控制频率;更重要的是,此类推理受限于语言空间,难以精准 刻画那些"不可言说"的物理属性(物理规律、环境动态、几何关系等),形成了表示瓶颈。 为了解决这些挑战,团 ...