从长时程推理到精准操纵:LoLA 破解机器人多步任务执行难题
具身智能之心·2025-12-29 00:04

点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操纵与视觉 - 语言 - 动作(VLA)模型研究领域,人类凭借对历史信息的连贯理解与多步动作规划,能轻松完成复杂长时程任务(如制作披萨)。但现有 技术多聚焦于短时任务,在长时程场景中面临时序上下文缺失、状态漂移、资源消耗过大等挑战。 中科院、国科大与微软研究院联合团队提出的 LoLA 框架 ,以 "长时程潜动作学习" 为核心,通过 "多模态编码 - 状态感知融合 - 动作生成" 的三层架构,首次实现 了长时程语言引导机器人操纵的高效执行,为通用机器人在真实场景的落地提供了全新解决方案。 论文题目:LoLA: Long Horizon Latent Action Learning for General Robot Manipulation 核心亮点:长时程多模态融合编码、状态感知潜表征模块、跨平台泛化能力、仿真与真实场景双重验证 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xiaofan Wang等 编辑丨具身智能之心 本文只做学术 ...