VLANeXt
Search documents
想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑
量子位· 2026-03-02 16:00
VLANeXt 团队 投稿 量子位 | 公众号 QbitAI VLA模型五花八门,到底哪些设计真正有用? MMLab@NTU联合中山大学的最新研究,给出了一份从入门到精通的终极"菜谱"—— VLANeXt 。 这项研究没有简单提出一个新模型了事,而是系统性地从 12个关键维度 ,深度剖析了VLA的设计空间。从基础组件到感知要素,再到动作 建模的额外视角,每一步都有扎实的实验支撑。 最终的产物VLANeXt,在标准基准LIBERO及泛化性测试LIBERO-plus上, 全面超越了包括7B参数模型在内的各类SOTA方法 。面对未见 过的光照、背景、相机位姿等扰动,其成功率较此前最佳方法大幅跃升了 10% 。 无论你是刚入局具身智能的小白,还是想进一步优化模型的老手,这份"菜谱"都能帮你找到答案。 背景:走出VLA的"原始汤" 随着大基础模型的崛起,视觉-语言-动作模型 (VLA) 展现出了极大的潜力,通过继承丰富的视觉理解和语言基础,为通用机器人策略学 习提供了可扩展的途径。然而,目前的VLA研究领域依然处于一种"原始汤 (primordial soup) "阶段—— 充满了各种天马行空的探索和 设计,但缺乏清晰 ...