理想连发两篇VLA机器人论文
2025年11月24日理想发布Compressor-VLA与AVA-VLA。 Compressor-VLA提出了一种针对机器人操作场景的高效视觉压缩方案,旨在解决端到端模型太重、太慢的落地难题。教会了机器人带着目的去观察,通 过语言指令过滤掉视觉垃圾,用更少的算力实现更精准的操作。 现在的具身智能大模型存在极其严重的算力浪费: 像一个强迫症患者,花费巨量算力去处理背景墙纸、地板纹理等无关紧要的视觉信息,导致推理延迟 过高,无法满足机器人的实时控制需求。 反直觉现象: 为了给模型减肥,传统做法是直接丢弃视觉token。这种盲目剪枝会导致灾难性后果——模型为了降低计算量,可能会保留纹理清晰的桌布 图案,丢弃了模糊但至关重要的物体边缘或把手位置。 现有的压缩算法是任务无关(Task-Agnostic)的。也就是说,压缩器是个瞎子,它只看图片本身,根本不知道机器人当下的任务是拿苹果还是关抽屉。这导 致在压缩过程中,关键的任务线索被当做噪声误删了 。 AVA-VLA针对现有端到端机器人大模型最核心的健忘问题,提出了一套工程化解决方案。 以下为更细化论述: 解决方案框架 采用了一种双通道互补结构,类似于指挥官 + 工匠的 ...