GrinningFace基准
Search documents
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-15 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chuheng Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,基于大型视觉语言模型(VLM)初始化训练视觉语言动作模型(VLA)已成为主流范式。但核心疑问始终未解: VLA 如何有效继承 VLM 中 丰富的视觉 - 语义先验? 微软研究院、香港科技大学等团队联合提出的 GrinningFace 基准 ,以表情符号桌面操作任务为切入点,通过模拟与真实机器人双环境实验,系统对比多种迁移 技术,不仅揭示了 VLM 先验对 VLA 泛化能力的关键作用,更为高效知识迁移提供了明确指导。 为什么需要专门的 VLA 知识迁移基准? 当前 VLA 训练虽普遍依托 VLM 初始化,但存在三大核心痛点,传统基准难以精准诊断: | 核心痛点 | 具体表现 | | --- | --- | | 先验迁移效果模糊 | VLM 的视觉 - 语义知识与 VLA 的机器人动作技能交织,无法 ...