多阶段训练策略
Search documents
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
机器之心· 2025-12-02 00:17
AR1 是基于 NVIDIA 的 Cosmos Reason 模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型;并采用多阶段训练策略:首先在大规模驾驶数据上 做模态注入,学习从视觉到动作的基本映射;第二阶段在 CoC 因果链数据上做监督微调,显式教会模型「 先想清楚再开」;最后通过强化学习(RL)进一步优化 推理质量、推理 - 行动一致性和轨迹安全性。 一、自动驾驶的瓶颈:「 看」得见,却「想」不明白 当今自动驾驶模型越来越强大,摄像头、雷达、Transformer 网络一齐上阵,似乎什么都「 看得见」。但真正的挑战在于:模型能否像人一样「 想明白」为什么要 这么开? 传统的端到端(E2E)系统虽然能从感知到控制一气呵成,却常在「 长尾场景」翻车 —— 比如: 迎面来车违规左转; 行人突然闯入; 临时施工、交通标志被遮挡。 这些「 极少数但容易发生事故」的场景正是当前系统的盲点。 二、Alpamayo-R1:给模型装上「 推理链条」 NVIDIA Research 推出的 Alpamayo-R1(AR1),是一种全新的带有推理能力的视觉 - 语言 - 行动模型(Reasoning ...