Workflow
Vision-Language-Action模型(VLAs)
icon
Search documents
VLA-Arena:一个用于系统性评估VLA的开源基准框架
具身智能之心· 2025-12-31 00:50
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Borong Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、 研究背景与动机 Vision-Language-Action模型(VLAs)正快速向通用机器人策略演进,已实现跨载体泛化、灵巧操作、指令跟随等多种能力。但当前对这类模型的能力边界、局 限及失效模式缺乏定量理解——现有基准存在三大核心缺陷: 为解决这些问题,VLA-Arena作为全面、可复现的基准框架被提出,核心目标是通过系统化设计,精准刻画VLA模型的能力前沿与失效机制。 二、 核心设计:结构化任务与基准框架 2.2 任务套件设计 基准包含170个任务,按核心挑战分为四个维度,每个维度下的任务均覆盖L0-L2难度: 三、 关键组件与技术细节 3.1 CBDDL语言扩展 基于BDDL(Behavior Domain Definition Language)扩展得到约束行为域定义语言(CBDDL),核心增强两点 ...