英伟达最新推出的方案,优于所有推理型VLA

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chi-Pin Huang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 VLA任务要求智能体对复杂视觉场景进行推理,并在动态环境中执行适应性动作。尽管近年来关于VLA推理的研究表明,显式思维链(CoT)能够提升泛化能力, 但由于推理轨迹冗长,这些方法存在推理延迟高的问题。 nvidia团队 提出了 Fast-ThinkAct ,一种高效推理框架,通过可语言化的latent推理实现紧凑且高性能的规划。Fast-ThinkAct通过从教师模型蒸馏知识,学习利用 latent思维链进行高效推理,其核心驱动力是偏好引导目标:该目标对齐操作轨迹,同时迁移语言和视觉规划能力以支持具身控制。这使得推理增强型策略学习能够 有效连接紧凑推理与动作执行。 在多种具身操作和推理基准上的大量实验表明,Fast-ThinkAct相较于最先进的推理型VLA模型,推理延迟最高可降低89.3%,同时保持了高效的长 ...