Workflow
隐式端到端VLA有哪些方法?领域一般是怎么分类的?
具身智能之心·2025-06-22 14:47

1)视觉特征提取模块 (V) 隐式端到端VLA模型指的是没有明确生成了未来机械臂如何运动的图像。和显示、分层VLA方法有所不同,隐 式端到端VLA基础模块主要包含视觉特征提取模块(V)、视觉语言的联合特征学习(V+L)、视觉语言动作的 联合训练(V+L+A)。 3) 视觉语言动作的联合训练 (V+L+A) 通常情况: ResNet-18 2. 预训练模型: R3M, VC-1, Voltron, Theia 追求速度: Efficienet 为了和文本好对齐: CLIP 为了用大模型: CLIP, SigLIP 这就是端到端VLA要做的事情,不过可以给大家一个直观的感受!对于机器人任务如何得到VL--A的映射呢?找 到V中对action 有用的区域。 2)视觉语言的联合特征学习(V+L) 对于机器人任务如何处理同时处理视觉和文本信息呢?小模型的选择:FiLM,同时也可以依旧用Perceiver结 构。大模型的选择:MLLM基座(Paligemma )。 4)隐式端到端VLA怎么分类? 根据模型大小:大模型/小模型VLA; 根据架构差异:Transformer-based/Diffusion-based; 5) ...