超越GPT-4o!AgentThink: 清华&小米融合推理&工具调用的自动驾驶框架(EMNLP25)
自动驾驶之心·2025-09-09 23:33
近年来,视觉语言模型(VLM)在自动驾驶领域展现出巨大潜力。凭借出色的场景理解与推理能力,VLM有望显著简化传统自动驾驶系统中依赖人工设计的感 知、预测与决策模块。然而,现有方法仍在不确定性建模、泛化性能与可解释性等方面存在明显局限。如何让自动驾驶VLM不仅"看得懂",更能像人类一样"思 考"——在复杂的自动驾驶环境中自主调用工具、进行推理与判断? 近日,由 清华大学、小米、麦吉尔大学 等团队联合提出的AgentThink框架,被自然语言处理顶会EMNLP 2025 Findings接收。该工作首次将动态工具调用与思维链 推理深度融合,极大提升了VLM在自动驾驶任务中的推理可靠性和泛化能力。目前,代码与项目网站均已开源。 现状与挑战 随着小米等车企在自动驾驶技术上的快速迭代,行业突破点正从基础感知与控制层面向 高阶语义场景理解 与 复杂拓扑关系 等问题收敛。比如一些大路口的复杂 红绿灯问题,以及一些复杂标牌的语义理解问题。此外,在探索和使用VLM的过程中,我们发现VLM模型存在严重的幻觉问题 (即模型给出的答案格式是对的, 但答案内容都是错的)。这就如同一个看似聪明的导航员,却总是给出错误的路线,让人哭笑不得 ...