小米开源具身智能VLA模型Xiaomi-Robotics-0,雷军:已布局多年
Sou Hu Cai Jing·2026-02-12 07:58
模型采用跨模态预训练的同时,还保留物体检测、视觉问答等能力。为解决传统VLA模型推理延迟导致 的"动作断层",团队采用异步推理模式与Λ-shape Attention Mask等机制,使机器人在真实场景中动作连 贯、反应灵敏,并在积木拆解、叠毛巾等高难度任务中展现手眼协调能力。 【太平洋科技快讯】2月12日消息,雷军今日在社交媒体发文称,小米机器人团队正式开源具身智能VLA 模型Xiaomi-Robotics-0。该模型拥有47亿参数,采用MoT混合架构,以多模态VLM大模型为底座,嵌入多 层DiT,使其兼顾通用理解与精细控制。 据介绍,Xiaomi-Robotics-0在主流的Libero、Calvin和SimplerEnv 测试集,包括所有的Benchmark和30种模 型对比中,均取得当前最优的成绩,且在消费级上实现实时推理。 ...