Workflow
机器人数据闭环深度:机器人VLA核心算法专家
300024SIASUN(300024)2025-05-26 15:17

机器人数据闭环深度:机器人 VLA 核心算法专家 20250526 摘要 大语言模型在物理智能体应用中面临几何信息描述不足的挑战,可通过 视频学习或绕过语言模型直接使用已训练好的 LM 部分来解决,提升 VLA 对空间信息的理解能力。 通过大量视频训练提升 VLA 对空间信息的理解能力是重要途径,但需解 决 2D 视频还原 3D 空间信息的映射问题,以及数据筛选和清洗的巨大 工程量。 开源 VLA 框架存在纯 Transformer 和快慢系统两种技术路线,前者算 力要求高,后者存在信息传递瓶颈,未来可能收敛到单个 Transformer 结构。 当前机器人方向存在硬件领先于算法的问题,VLA 缺乏方法性和泛化性, 主要瓶颈在于缺乏强大的仿真模型和 3D 空间理解能力。 解决 World Model 的主要矛盾在于数据量问题,需通过视频从 next token prediction 迁移到 next frame prediction,并进行复杂的数据 筛选和清洗。 Q&A VLA 算法在巨轮智能领域的历史发展是怎样的? VLA 算法的发展可以追溯到两个方面的融合。首先,大模型的发展起源于大语 言模型(LM), ...