告别机器人“断片”!KAIST和UC Berkeley团队让VLA模型拥有记忆 实测成功率翻倍!
机器人大讲堂·2026-02-16 15:31

机器人伸手去拿桌上的杯子,它需要知道自己刚才有没有抓住过这个杯子吗?答案是肯定的。但现有的视 觉-语言-动作模型(VLA)大多只盯着当前画面做决策,完全没有"历史记忆"。这就导致机器人在处理遮挡 物体、多步骤堆叠这类需要上下文的任务时,很容易陷入混乱。 近日,来自KAIST和UC Berkeley 的团队提出了一个名为HAMLET的框架,给预训练VLA模型补上了"历史 感知"的短板。这个轻量级插件不需要从头训练大模型,却能让机器人在长时操控任务中,平均成功率直接 提升47.2%。在真实场景的"盖方块 叠杯子"任务里,HAMLET更是把成功率从37.5%拉到了79.2%,彻底解 决了机器人"断片"的问题。 01. 没有记忆的机器人 连叠杯子都做不好 当下主流的VLA模型,比如GR00T N1.5、CogACT,都遵循"单帧假设",只靠当前的视觉画面和文本指令 来预测下一步动作。这种设计在简单任务里没问题,但遇到需要上下文的长时任务,就会立刻露怯。 举个例子,"用最近的杯子盖住方块,再把另一个杯子叠上去"这个任务,当机器人用第一个杯子盖住方块 后,方块就被遮挡住了。如果没有历史记忆,机器人看着眼前的两个杯子,根本 ...

告别机器人“断片”!KAIST和UC Berkeley团队让VLA模型拥有记忆 实测成功率翻倍! - Reportify