Workflow
VLA2:浙大x西湖大学提出智能体化VLA框架,操作泛化能力大幅提升
具身智能之心·2025-10-24 00:40

本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Han Zhao等 编辑丨具身智能之心 在机器人操作任务中,尽管视觉-语言-动作模型已具备一定程度的泛化能力,但当遇到涉及完全陌生概念(unseen concept)的指令时,这类模型仍无法将先前习 得的操作经验迁移至此类场景(参考OpenVLA的相关实验)。为此,我们提出视觉-语言-动作智能体(VLA²),旨在通过支持调用多样化工具来增强VLA系统 的能力。该框架能够整合任务规划、网络搜索、目标检测等功能模块,从而突破现有VLA模型的执行能力边界。 论文题目:VLA²: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation 论文链接:https://arxiv.org/abs/2510.14902 项目主页:http ...