消除推理阶段的额外开销!pi团队提出训练新思路
具身智能之心·2025-12-10 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 出发点与背景介绍 与聊天机器人或搜索引擎不同,具身智能体必须具备实时运行能力。智能体动作与外部环境间的反馈闭环决定了其必须拥有快速响应性——就像人类运动员一 样,智能体无法在外界环境不断变化的过程中" 停下来思考 "。但随着前沿模型的规模持续扩大,这一要求的实现难度也越来越高。这一点在机器人学习领域表 现得尤为明显:如今,参数规模达数十亿的视觉-语言-动作模型(VLAs)正被越来越多地用于高频率控制机器人,以完成各类灵巧操作任务。而当模型推理延 迟达到数十至数百毫秒时,如何生成既平滑又具备响应性的动作轨迹,就成了一项不小的挑战。 实时动作分块技术整合了动作分块、流匹配和推理时补绘等技术思路,为解决上述问题提供了一套方案。在该技术框架下,动作块的预测过程是异步进行的 ——即在当前动作块执行的同时,就开始生成下一个动作块。为保证动作块之间的连续性,每次生成新动作块时,都会基于此前已预测的动作构成的固定前 缀,并对剩余部分进行补绘。但遗憾的是,实时动作分块所采用的推理时补绘方法会引入额外计算开销,进而产生延迟,在一定程度上削弱了实时执行框架的 ...