小米打通智驾和具身大模型，然后开源了

Henry 发自凹非寺量子位 | 公众号 QbitAI 全球首个自驾+机器人统一基座模型开源了！针对自驾与具身操作场景的知识迁移难题，小米汽车陈龙团队提出并开源了全球首个打通这两大领域的跨具身（X - Embodied）基座模型 —— MiMo-Embodied 。 MiMo-Embodied 基于 MiMo-VL 架构，通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集，并采用包含思维链（CoT）和强化学习（RL）的渐进式四阶段训练策略，有效打破了室内操作与户外驾驶之间的领域鸿沟。在实测效果上，MiMo-Embodied在自动驾驶与具身智能共计 29 个Benchmark上均超越了现有的专用模型及通用模型，实现了跨领域的最先进（SOTA）性能。无论是开车的环境感知、规划，还是机器人的拿取、导航，主打一个我全都要。具身与智驾，小米全都要！在以往具身/自驾的VLM领域中，往往存在以下问题：一方面是缺乏统一的具身VLM(Unified Embodied VLM) 。现有的视觉语言模型（VLMs）大多专注于单一领域（仅室内任务或仅户外驾驶），缺乏能够连接这两个领域的统一模型。限制 ...