Workflow
自动驾驶之心
icon
Search documents
当老师给我指了个VLA作为研究方向后.......
自动驾驶之心· 2025-09-09 03:42
小林是某C9高校的研二同学,目前实验室主要是做自动驾驶和机器人方向的。这两周刚开学,忙完 了寝室和班里里面杂七杂八的事情,该去实验室和老板Meeting一下了。老板这个暑假没闲着啊,看 了企业不少VLA都量产上车了,说咱们实验室也可以搞搞看,发发论文。 确实自动驾驶最近的热点都在大模型和VLA靠拢,然而VLA并不是那么好做的,对于一个新手或者 转行的同学,开展研究蛮难受的。踩了一年坑,也不一定能有效果。这时候,峰哥给他推荐了自动 驾驶之心的1v6论文辅导。 ⼀、VLA科研论文辅导课题来啦⭐ 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的开启。 1. 传统模块化架构的时代: 早期的自动驾驶系统(L2-L4级)普遍采用模块化设计。每个模块(如 物体检测、轨迹预测、路径规划)被独立开发和优化。 优势: 逻辑清晰,各模块可独立调试和 验证,具有较好的可 ...
悄悄搞了个大模型技术社区......
自动驾驶之心· 2025-09-09 03:42
一个认真做内容的社区,一个培养未来领袖的地方。 自动驾驶VLA这么火,想借这个机会了解更多大模型相关的技术知识,有哪些方向可以做,现在热点在哪 里? 为此我们筹备了大模型之心Tech社区,平台主要关注大模型RAG、大模型AI Agent、多模态大模型 (预训练、微调、强化学习)和大模型部署推理优化等等。 欢迎对大模型技术感兴趣的小伙伴关注我们~ 如果您想做进一步学习,也欢迎加入我们的 大模型之心Tech知识星球 。大模型之心Tech知识星球,我们目 标是构建一个国内最大的大模型技术社区,一直在给行业和个人输送各类人才、产业学术信息。目标星球 正在快速搭建相关模块,欢迎加入我们与大模型同行。 ...
强化学习真的很适用于自动驾驶吗?
自动驾驶之心· 2025-09-08 23:33
作者 | XiuQ 编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 ★ 前段时间阅读到这篇论 文 ,利用强化学习,self-play 方式,不使用任何真实数据, zero-shot 在CARLA, nuPlan, waymax 上达到的SOTA. 论文结果很amazing, 并且给出了较为详细的细节,本文是笔者的阅读笔记,以供后期回顾,也供大家参考, 若有纰漏,欢迎友好指正,也欢迎大家一 起交流学习。 笔记将主要抽取总结论文关键脉络,更多细节十分推荐阅读原文。 强化学习回顾 原文链接: https://www.zhihu.com/question/547768388/answer/114467872460 RL 交互流程 强化学习的主要框架如上图所 示 , 强化学习的任务是寻找一个 使agent 在与环境交互过程中的累计回报期望最大。强化学习的几个核心点是 对于自动驾驶而言, 将强化学习用在自动驾驶,环境演化和Reward设计可能相对较难。主要 ...
清华最新综述!200+文献全面凝练Agentic RAG最新进展~
自动驾驶之心· 2025-09-08 23:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 检索增强生成(Retrieval-Augmented Generation, RAG)通过注入外部知识提升了大语言模型的事实性,但在需要多步推理的问题上表现欠佳;反 之,纯推理导向的方法则常出现生成幻觉内容(hallucination)或事实依据不足的问题。本综述从"推理-检索协同"这一统一视角,整合了上述两大 研究方向。首先,本文梳理了先进推理技术如何优化RAG的各个阶段(即"推理增强型RAG");其次,阐述了不同类型的检索知识如何为复杂推理 补充缺失前提并扩展上下文(即"RAG增强型推理");最后,重点聚焦新兴的"协同式RAG-推理框架"——在这类框架中,具备智能体能力 (agentic)的LLM会迭代交替执行搜索与推理操作,从而在各类知识密集型基准测试中实现当前最优性能。本文对相关方法、数据集及开放挑战进 行了分类梳理,并勾勒出未来研究方向,旨在构建更高效、多模态适配、可信且以人为本的深度RAG-推理系统。 汇总链接:https://github.com/DavidZWZ/Awesome-RAG-Reasoning ...
端到端数据驱动闭环来了!三大突破引领行业进入 “数据闭环” 新时代
自动驾驶之心· 2025-09-08 23:33
以下文章来源于51WORLD ,作者致力于克隆地球的 51WORLD . 51WORLD是一家致力于克隆地球5.1亿平方公里的科技公司,通过建立一个数字孪生世界来改变世界。 2025 年,中国汽车产业加速进入端到端时代,数据驱动闭环面临着全新的机遇与挑战 。 站在行业关键拐点,51Sim于 Testing Expo China 2025 - Automotive 同期举办的「向真而行!51Sim端到端数据闭环生态论坛」上,正式发布 "端到端 数据驱动闭环" 。 该方案在 仿真置信度、AI赋能、数据复用 三大领域实现里程碑式突破,打破端到端数据驱动闭环的多个关键技术瓶颈,旨在为行业 创造领先的解决方案, 助力全产业链构建端到端时代的新核心竞争力与技术壁垒, 加速推动高阶智能驾驶迈向规模化量产落地。 数据驱动闭环升级 所谓端到端,是指一端输入图像等环境感知数据,经由多层神经网络模型的"黑箱"处理,直接输出转向 、制动、加速等驾驶指令。其本质是基于数据驱动的 技术路线,需要大量的高质量数据对端到端大模型进行训练。 端到端时代下,数据驱动闭环的重要性空前提升,但也面临着多重挑战: 置信度突破,让数据更真 端到端模型依 ...
花了很久,才整理好的大模型学习路线......
自动驾驶之心· 2025-09-08 23:33
从今年上半年具身VLA、自驾VLA/VLM这些方向大火以来,很多同学都对大模型这个领域感兴趣,咨询我 们一些前沿大模型技术的学习路线。我和峰哥也商量了一下,决定把大模型的社区做起来。 筹备了半年时 间,今天也终于和大家见面了~ 大模型技术是诸多前沿领域发展的基础。最具代表性的是RAG和AI Agent,企业对掌握 RAG、Agent 等技 术的人才需求高涨,这些技能已成为 AI 从业者的核心竞争力。算法开发、工具链开发、后端、产品经理、 架构师等等相关岗位需求非常旺盛,算法核心岗位的年薪更是一骑绝尘! 开源大模型生态为学习者提供了绝佳机会。国外有Meta的LLaMA 3;国内有DeepSeek采用完全开源模式, 其衍生项目已经超过800个,通义千问衍生模型数破10万,居世界第一。开源不仅降低研发门槛,还促进技 术共享与创新,让开发者能在现有基础上快速迭代。 学习大模型也是适应大趋势的必然。 『大模型之心Tech知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的大模型社区。 我们期望未来2年内做到近万人的规模。给大家打造一个 交流+技术分享的聚集地,是许多初学者和进阶的同 ...
博士毕业的3篇CCF-A文章都是怎么发出来的?
自动驾驶之心· 2025-09-08 10:56
最近收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博士都毕不了 业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设计总遇瓶颈,写作逻辑混 乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机器人领域,真的有点力不从心。 一篇好的论文需要有好的切入点,哪个方向更容易产出,这一个判断尤为重要!剩下的就是怎么论证这个idea work,比当前SOTA有效(如果是A类会议)。实验的设计也非常重要,特别是消融实验,要摸清是什么因素导 致的提升。后期的写作技巧,取决于你是否能够让审稿人眼前一亮,如何回复审稿意见也是需要经验的。 筹备了近1年,我们的论文辅导正式推出了,主要面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内最顶尖的学 术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑战与机遇,更明白一篇 高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们目前有300+专职于自动驾驶/具身智能方向的老师。来自于 ...
自动驾驶之心招募令!世界模型/模型部署/VLA方向
自动驾驶之心· 2025-09-08 09:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 创业项目合作与推荐; 联系我们 如果您是大模型/多模态大模型、世界模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D 目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
3DGS和重建方向,师兄推荐了这个3D激光扫描仪...
自动驾驶之心· 2025-09-08 09:09
最强性价比3D激光扫描仪 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精度高,行走之间轻松扫 描大场景 业内最优惠价格 :性价比高,高度 集成多传感器, 往下翻~ 重磅!3DG ...
理想汽车如何看待VLA里语言部分的作用
自动驾驶之心· 2025-09-08 03:32
来源 | 理想TOP2 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 语言是认知世界的框架,而不仅是沟通工具。人类所能思考、理解和表达的一切,都被限制在语言的范畴之内。我们所理解的世界,很大程度上是我们所使用的语 言的产物,对于无法用语言表述的事物,我们难以形成清晰的思想。而且,不同的语言以其独特的词汇、语法和结构,为使用者提供了不同的认知框架。所以我们 会看到,来自于不同语言体系的人,其思维方式是有差别的。 在VLA架构里面,V是感知,A是动作,而L承担的是语言能力部分。L对V感知的内容做出认知理解并形成A的行动规划和决策。VLA的L不是用语言做显式的文字 推理,而是用人类语言提供的数据学习做隐式的逻辑推理,这才是L真正的核心。很多人以为L就是输出在交互界面的那几行文字以及语音控制命令,这个理解是 不对的。其实文字输出和语音输入都是可选的,输不输出都不太关键(看人类想不想要),真正发挥作用的是背后推理的长思维链。如果没有强大的L,再好的V 和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球, ...