Workflow
视觉 - 语言 - 动作(VLA)框架
icon
Search documents
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-10 23:33
端到端学习已迅速成为自动驾驶的基础范式,促进了感知、预测和规划在统一框架下的联合优化。借助大规模驾驶数据集,这些模型能够直接从原始传感器数据中学习 驾驶策略,在各种真实场景中展现出令人印象深刻的性能。然而,尽管取得了这些进展,当前的E2E方法仍面临持续的挑战:它们往往难以泛化到稀有的长尾事件,对 高级场景语义理解不足,并且缺乏在开放世界环境中所需的自适应且可解释的推理能力。 与此同时,大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,凸显了它们在上下文学习、常识推理和超越训练分布的泛化能力方面的卓越表现。这些新兴能力 为提升自动驾驶系统的智能性和鲁棒性提供了极具吸引力的机会,特别是在面对真实世界、安全关键的部署复杂性时。然而,直接将现有的VLM应用于自动驾驶存在显 著挑战。大多数VLM主要针对静态二维视觉语言任务进行优化,限制了其在丰富、动态的三维驾驶环境中的空间推理和全面场景理解能力。更关键的是,缺乏显式的时 间建模机制使得这些模型无法有效推理随时间展开的交互、运动和因果关系。此外,它们倾向于产生幻觉式或不可靠的描述,严重影响了自动驾驶等高风险应用所需的 可信度。因此,一个重要的技术难题浮现出来:如 ...