监督式学习

Search documents
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-29 23:32
作者 | Vision 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1933268710770074901 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 背景 随着业界鼓吹端到端自动驾驶一年之后,最近又开始宣传vla和强化学习的等新的技术范式。vla概念来自最近一年业界巨火的具身智能领域,本质上跟端到端的自 动驾驶没有很明确的区别。本篇文章我们聚焦下强化学习这个技术范式。其实早在机器人领域早期,就有强化学习的身影,但一直由于其训练效率低下,复杂度 高,在工业界一直没有很广泛的运用。随着2018年alpha zero 围棋比赛,2023年chatgpt rlhf的推出,2025年初 deepseek-o1 在线推理的推出,强化学习在各个行业和 技术领域凸显出更广泛的使用潜力。在本着技术好奇的角度,结合最近两周对相关基础知识的理解,来讲讲作为一个计算机视觉(cv)背景的眼中,强化学习是个 什么概念。故下面很多概念类比可能 ...