Workflow
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心·2025-07-12 02:11

作者简介:由来自北 京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博 士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身 智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考: 在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港 中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。不同 之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预 训练视觉 - 语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与 异步运行频率的策略,使得 FiS-VLA 既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真 机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率,大幅领先于 现有主流方案,展示了其广阔的实际应用潜力。 论文链接: https://arxiv.org/pdf/2506.01953 项目 ...