蚂蚁出手VLA，就是开源超越Pi0.5的基座模型

编辑｜张倩一个机器人到底需要多「聪明」，你才愿意把它请进家门？前段时间，明星具身智能公司 1X 开始预售其人形机器人 Neo。演示视频中，它能从冰箱取水、叠衣服、把餐具放进洗碗机，俨然一个称职的家务助手。但问题是，它当时真正能自主完成的，也只有这几件事。至于更多样的日常任务 —— 比如整理散落的玩具、擦拭台面、收纳杂物 —— 在现阶段，大多仍需要工程师远程教学。这就多少有些令人迟疑：花费近 14 万元，迎来的不仅是一个「助手」，还可能是一双需要你授权进入家庭隐私空间的「眼睛」。社交网络上，不少人也对这种「半成品智能」表达了困惑甚至调侃。这种「演示场景自主、真实任务依赖人工」的割裂状态，恰恰映射出当前具身智能落地的核心挑战：泛化能力不足。要突破这一瓶颈，业界共识是：需要更大规模、更多样化的真实机器人数据来「喂养」模型，使其学习到更本质的任务理解与动作泛化能力。然而，高质量真机数据的采集成本极高，且不同构型机器人的数据难以复用，导致大多数模型仍只能在有限数据或仿真环境中训练，难以实现真正的跨任务、跨本体泛化。在这一背景下，蚂蚁灵波开源发布的第一款具身智能基座模型 LingBot-V ...