Workflow
小米打通智驾和具身大模型,然后开源了
XIAOMIXIAOMI(HK:01810) 量子位·2025-11-25 09:32

Henry 发自 凹非寺 量子位 | 公众号 QbitAI 全球首个自驾+机器人统一基座模型开源了! 针对自驾与具身操作场景的知识迁移难题,小米汽车 陈龙团队 提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型 —— MiMo-Embodied 。 MiMo-Embodied 基于 MiMo-VL 架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化 学习(RL)的渐进式 四阶段训练策略 ,有效打破了室内操作与户外驾驶之间的领域鸿沟。 在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计 29 个Benchmark上均超越了现有的专用模型及通用模型,实现了跨领域的最先 进(SOTA)性能。 无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。 具身与智驾,小米全都要! 在以往具身/自驾的VLM领域中,往往存在以下问题: 一方面是 缺乏统一的具身VLM(Unified Embodied VLM) 。 现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制 ...