Workflow
ViVLA框架
icon
Search documents
看一次就能执行!单视频示范零样本学习&跨模态动作知识迁移
具身智能之心· 2025-12-15 01:04
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人研究领域,视觉 - 语言 - 动作(VLA)模型虽已展现出端到端控制的潜力,但通用操纵策略的开发仍面临核心瓶颈——现有模型难以泛化到训练分布之外 的任务,而人类仅需观察一次示范即可快速掌握新技能。 北京理工大学与 LimX Dynamics 联合提出的 ViVLA 框架 ,以 "单样本视频模仿学习" 为核心目标,通过 "统一动作空间构建 - 并行解码优化 - 大规模数据生成" 的 三层技术体系,首次实现机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式。 论文题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Guangyan Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 核心亮点: ...
看一次就能执行!VLA的零样本学习是伪命题吗?
具身智能之心· 2025-12-13 01:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Guangyan Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人研究领域,视觉 - 语言 - 动作(VLA)模型虽已展现出端到端控制的潜力,但通用操纵策略的开发仍面临核心瓶颈——现有模型难以泛化到训练分布之外 的任务,而人类仅需观察一次示范即可快速掌握新技能。 北京理工大学与 LimX Dynamics 联合提出的 ViVLA 框架 ,以 "单样本视频模仿学习" 为核心目标,通过 "统一动作空间构建 - 并行解码优化 - 大规模数据生成" 的 三层技术体系,首次实现机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式。 论文题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations 核心亮点: ...