自动驾驶之心

Search documents
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 11:34
论文标题 : Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving 论文作者: Hao Jiang, Chuan Hu, Yukang Shi, Yuan He, Ke Wang, Xi Zhang, Zhipeng Zhang 论文链接: https://www.arxiv.org/pdf/2506.05442 作者 | Hao Jiang 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『端到端自动驾驶』技术交流群 本文只做学术分享,如有侵权,联系删文 引言 最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中,基于 视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。 现有的VLM训练范式严重依赖带有自由格式的文本标注数据集 ,如图1(a)所示。虽然这些描述 能够 捕捉丰富的语义信息,但 由于两种结构不同但是表达相近的句子会增加模型在学习任 ...
ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR'25)
自动驾驶之心· 2025-06-23 11:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 北理工&清华 最新的工作! MMTL-UniAD:辅助 驾驶感知中多模态和多任务学习的统一框架(CVPR'25)。 如果您有相关工作需 要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>点击进入→ 自动驾驶之心 『多任务学习』技术交流群 论文作者 | Wenzhuo Liu等 高级驾驶辅助系统需要对驾驶员的心理/生理状态以及交通环境进行全面感知,但现有研究往往忽视了这 些任务之间联合学习所带来的潜在优势。本文提出了一种统一的多模态多任务学习框架——MMTL- UniAD,该框架可同时识别驾驶员行为(如四处张望、交谈)、驾驶员情绪(如焦虑、愉快)、车辆行 为(如变道、转向)以及交通环境(如拥堵、通畅)。本研究的关键挑战在于如何缓解多任务联合学习 过程中产生的负迁移现象。该现象是多任务学习中核心难点,指由于任务间存在差异或冲突,导致某些 任务在联合训练下的性能反而低于其单独训练时的表现。为解决这一问题,我们在框架 ...
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 11:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
为什么一篇论文要耗尽整个研究生生涯?
自动驾驶之心· 2025-06-23 08:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博士都毕不了 业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设计总遇瓶颈,写作 逻辑混乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机器人领域,真的有点力不 从心! 一篇论文往往需要1-2年的时间筹备发出,对硕士来说,基本上贯穿了整个学术生涯。方法错误、走弯路、 无人指点是最消耗时间的!论文发表难,但也不是没有办法,有大佬带队,一年发几篇都很正常。筹备了 好久,我们服务大家的论文辅导正式推出了,面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内最顶 尖的学术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑战与机遇, 更明白一篇高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们300+专职于自动驾驶/具身智能方向的老师。来自于全球QS排名前100 ...
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 14:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型高效微调已经成为业界关注的焦点,无论是通用大模型,还是智驾大模型,如何通过轻量微调变成各个不同领域的专业模型,成为 讨论的热点。所以今天就来大家一起聊聊LORA。 背景: 业内的大公司或者研究机构,都是有足够资源的来开发大模型,但是对于一般的小公司或者个人来说,要想开发自己的大模型几乎 不可能,要知道像 ChatGPT 这样的大模型,一次训练的成本就在上千万美元,而即使是DeepSeekv3,单次训练成本也在500万美元以上, 所以充分利用开源大模型,在领域任务上高效微调便成为了当下学术界和工业界迫切需要解决的问题,至此LoRA问世: LoRA 的思想很简单: 而这个降维的操作就需要用到低秩分解了,接下来我们回顾下低秩分解: * [16] A. A. K. 那么LoRA训练的思路和优势是什么呢? 在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。 训练的时候固定 PLM 的参数,只训练降维矩阵 A ...
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 14:09
作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/696732944 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『LLM』技术交流群 本文只做学术分享,如有侵权,联系删文 论文地址:https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文,一作单位是清华 这篇主要有三个部分,1. 从理论和实验上看,DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上(编程比赛)碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状,即大部分的开源的榜单上,DPO 占据了领先的位置,但是众所周 知,最好的闭源模型 GPT4 和 Claude,用的都是 PPO 方案。所以这里就自然引出两个问题,即 1. DPO 相 对 PPO 真的有优势吗?2. 如何让 PPO 也很能刷榜呢? DPO 的缺陷 在调教 PPO 的时候,一种常见的现象是语言模型发现了奖励模型的缺陷,而构 ...
实验室老板想搞个自动驾驶小车,还没什么头绪。。。
自动驾驶之心· 2025-06-22 14:09
自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。 重磅!预售来啦。面向科研&教学级自动驾驶全栈小车黑武士系列001正式开售了。世界太枯燥了,和我们一起做点有意思的事情吧。 原价36999元,现 在下单赠送3门课程( 模型部署+点云3D检测+多传感器融合 ),优先锁定的安排组装发货。 这两个月订单排满了,正在不断组装调试,5台及以上订单可以优惠哦!欢迎高校和研究院所批量采购。感兴趣的同学可以早点下单哦~ 1)黑武士001 黑武士支持二次开发和改装,预留了众多安装位置和接口,可以加装相机、毫米波雷达等传感器; 2)效果展示 我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能; 整体功能介绍 本科生学习进阶+比赛;√ 研究生科研+发论文;√ 研究生找工作+项目;√ 高校实验室教具;√ 培训公司/职业院校教具;√ 户外公园行驶 点云3D目标检测 室内地库2D激光建图 室内地库3D激光建图 上下坡测试 室外大场景3D建图 室外夜间行驶 6)软件说明 软件与语言框架:ROS、C++、python 支持一键启动,提供开发环境 3)硬件说明 | 主要传 ...
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 14:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤 其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自 动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量 产。 随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。 所以哪些高质量工作现在应该格外关注?趋势在往什么方向发展?量产应用究竟如何?全都是值得每一位前沿从 业者思考~ 为此,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表时间排 序,其中不乏全球顶尖高校团队和工业界研究团队的工作。 并在文末做了一些对当下工作的观点整理,感兴趣 的小伙伴不要错过呦~ 标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adapt ...
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶技术日渐火热,各类开发者数据集层出不穷。"自动驾驶之心"已整理收录了100多个优质自动 驾驶数据集,为初学者和工程师提供了丰富素材。本文仅选取其中5个数据集进行介绍,覆盖了从感知 (目标检测、分割)到视觉里程计等多种任务场景。无论你是入门新手还是科研工程师,这5个数据集 都值得关注,更多资源欢迎加入社群获取完整资料! 不过,本文介绍的只是"自动驾驶之心"社群中海量资源的一小部分。想要获取全部100+数据集的详细信 息,以及与志同道合的业内同仁实时交流,请加入"自动驾驶之心"知识星球并加入社群! 1. KITTI 数据集 KITTI 数据集是自动驾驶领域最经典、使用最广泛的基准数据集之一。它通过在卡尔斯鲁厄街道环境中 搭载高精度传感器(如双目彩色/灰度相机、Velodyne 3D 激光雷达、GPS/IMU 等)采集数据。数据集中 包含了立体视觉、光流、视觉里程计、3D 目标检测和跟踪等多种感知任务的标注(如图像序列和 3D 物 体轨迹)。丰富的城市、高速和乡村场景让 KITTI 成为评测车载视觉算法性能 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...