北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心·2025-07-25 02:03
机器之心发布 机器之心编辑部 如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。研究者开始探索如何将这种智能从数字世 界延伸至 物理空间 ,以实现 具身智 能 。这其中最受关注的前沿方向之一,便是 视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA) 。此类模 型借助基础模型的通用能力与大规模学习范式,可以处理通用的视觉(Vision)与语言(Language)输入,并生成实时动作(Action),极大地赋能了机器人系 统。 近两年来,VLA 相关研究爆发式增长,技术路线日新月异 —— 但这也造成了认知碎片化与理解上的困难。现有分类方法如 "大脑 - 小脑"、"快慢系统"、"分层 - 端到端" 等,直觉清晰但本质仍不明确。 领域急需系统化的分析框架,以梳理研究现状,指明未来方向。 为此, 北京大学 - 灵初智能联合实验室首次从动作词元化(action tokenization)视角,提出统一理解 VLA 模型的新框架 。综述系统分析了八种主流 action token,探讨了不同动 ...