自动驾驶之心
Search documents
强化学习真的很适用于自动驾驶吗?
自动驾驶之心· 2025-09-08 23:33
作者 | XiuQ 编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 ★ 前段时间阅读到这篇论 文 ,利用强化学习,self-play 方式,不使用任何真实数据, zero-shot 在CARLA, nuPlan, waymax 上达到的SOTA. 论文结果很amazing, 并且给出了较为详细的细节,本文是笔者的阅读笔记,以供后期回顾,也供大家参考, 若有纰漏,欢迎友好指正,也欢迎大家一 起交流学习。 笔记将主要抽取总结论文关键脉络,更多细节十分推荐阅读原文。 强化学习回顾 原文链接: https://www.zhihu.com/question/547768388/answer/114467872460 RL 交互流程 强化学习的主要框架如上图所 示 , 强化学习的任务是寻找一个 使agent 在与环境交互过程中的累计回报期望最大。强化学习的几个核心点是 对于自动驾驶而言, 将强化学习用在自动驾驶,环境演化和Reward设计可能相对较难。主要 ...
清华最新综述!200+文献全面凝练Agentic RAG最新进展~
自动驾驶之心· 2025-09-08 23:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 检索增强生成(Retrieval-Augmented Generation, RAG)通过注入外部知识提升了大语言模型的事实性,但在需要多步推理的问题上表现欠佳;反 之,纯推理导向的方法则常出现生成幻觉内容(hallucination)或事实依据不足的问题。本综述从"推理-检索协同"这一统一视角,整合了上述两大 研究方向。首先,本文梳理了先进推理技术如何优化RAG的各个阶段(即"推理增强型RAG");其次,阐述了不同类型的检索知识如何为复杂推理 补充缺失前提并扩展上下文(即"RAG增强型推理");最后,重点聚焦新兴的"协同式RAG-推理框架"——在这类框架中,具备智能体能力 (agentic)的LLM会迭代交替执行搜索与推理操作,从而在各类知识密集型基准测试中实现当前最优性能。本文对相关方法、数据集及开放挑战进 行了分类梳理,并勾勒出未来研究方向,旨在构建更高效、多模态适配、可信且以人为本的深度RAG-推理系统。 汇总链接:https://github.com/DavidZWZ/Awesome-RAG-Reasoning ...
端到端数据驱动闭环来了!三大突破引领行业进入 “数据闭环” 新时代
自动驾驶之心· 2025-09-08 23:33
以下文章来源于51WORLD ,作者致力于克隆地球的 51WORLD . 51WORLD是一家致力于克隆地球5.1亿平方公里的科技公司,通过建立一个数字孪生世界来改变世界。 2025 年,中国汽车产业加速进入端到端时代,数据驱动闭环面临着全新的机遇与挑战 。 站在行业关键拐点,51Sim于 Testing Expo China 2025 - Automotive 同期举办的「向真而行!51Sim端到端数据闭环生态论坛」上,正式发布 "端到端 数据驱动闭环" 。 该方案在 仿真置信度、AI赋能、数据复用 三大领域实现里程碑式突破,打破端到端数据驱动闭环的多个关键技术瓶颈,旨在为行业 创造领先的解决方案, 助力全产业链构建端到端时代的新核心竞争力与技术壁垒, 加速推动高阶智能驾驶迈向规模化量产落地。 数据驱动闭环升级 所谓端到端,是指一端输入图像等环境感知数据,经由多层神经网络模型的"黑箱"处理,直接输出转向 、制动、加速等驾驶指令。其本质是基于数据驱动的 技术路线,需要大量的高质量数据对端到端大模型进行训练。 端到端时代下,数据驱动闭环的重要性空前提升,但也面临着多重挑战: 置信度突破,让数据更真 端到端模型依 ...
花了很久,才整理好的大模型学习路线......
自动驾驶之心· 2025-09-08 23:33
Core Insights - The article emphasizes the growing interest in large model technologies, particularly in areas like VLA and VLM, and the high demand for talent skilled in RAG and AI Agent technologies [1][3] - The establishment of a community focused on large models aims to provide a platform for knowledge sharing and technical exchange among practitioners and learners in the field [6][8] Group 1: Community and Learning Opportunities - The "大模型之心Tech" community is designed to be a comprehensive platform that integrates video, text, learning paths, Q&A, and job exchange, with a goal of reaching nearly 10,000 members in two years [3][6] - The community invites experts from renowned universities and leading companies in the AI and internet sectors, creating a hub for cutting-edge technology discussions [6][68] - Members will have access to job recommendations and industry insights, facilitating connections with potential employers [8][9] Group 2: Learning Pathways - A detailed learning roadmap for large models has been compiled, covering various areas such as RAG, AI Agent, and multimodal models, catering to both beginners and advanced learners [7][11] - Specific learning routes include Graph RAG, AI Agent core technologies, and multimodal model training, providing structured resources for systematic learning [7][11] Group 3: Technical Resources - The community offers extensive resources on RAG, including benchmarks, reviews, and applications in AIGC, aimed at helping newcomers understand the technology [12][25] - For AI Agents, the community provides insights into the latest reviews, open-source repositories, and evaluation methods, further detailing subfields like multi-agent systems [27][33] - Resources on multimodal model training, including datasets and reinforcement learning techniques, are also available, with plans for continuous enrichment of these modules [44][55] Group 4: Engagement and Events - The community plans to host live sessions with industry leaders, allowing members to engage with top experts and revisit the content as needed [67] - A focus on job sharing and recruitment information will empower members to find relevant job opportunities in the field [68]
博士毕业的3篇CCF-A文章都是怎么发出来的?
自动驾驶之心· 2025-09-08 10:56
最近收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博士都毕不了 业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设计总遇瓶颈,写作逻辑混 乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机器人领域,真的有点力不从心。 一篇好的论文需要有好的切入点,哪个方向更容易产出,这一个判断尤为重要!剩下的就是怎么论证这个idea work,比当前SOTA有效(如果是A类会议)。实验的设计也非常重要,特别是消融实验,要摸清是什么因素导 致的提升。后期的写作技巧,取决于你是否能够让审稿人眼前一亮,如何回复审稿意见也是需要经验的。 筹备了近1年,我们的论文辅导正式推出了,主要面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内最顶尖的学 术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑战与机遇,更明白一篇 高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们目前有300+专职于自动驾驶/具身智能方向的老师。来自于 ...
自动驾驶之心招募令!世界模型/模型部署/VLA方向
自动驾驶之心· 2025-09-08 09:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 创业项目合作与推荐; 联系我们 如果您是大模型/多模态大模型、世界模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D 目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
3DGS和重建方向,师兄推荐了这个3D激光扫描仪...
自动驾驶之心· 2025-09-08 09:09
最强性价比3D激光扫描仪 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精度高,行走之间轻松扫 描大场景 业内最优惠价格 :性价比高,高度 集成多传感器, 往下翻~ 重磅!3DG ...
理想汽车如何看待VLA里语言部分的作用
自动驾驶之心· 2025-09-08 03:32
来源 | 理想TOP2 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 语言是认知世界的框架,而不仅是沟通工具。人类所能思考、理解和表达的一切,都被限制在语言的范畴之内。我们所理解的世界,很大程度上是我们所使用的语 言的产物,对于无法用语言表述的事物,我们难以形成清晰的思想。而且,不同的语言以其独特的词汇、语法和结构,为使用者提供了不同的认知框架。所以我们 会看到,来自于不同语言体系的人,其思维方式是有差别的。 在VLA架构里面,V是感知,A是动作,而L承担的是语言能力部分。L对V感知的内容做出认知理解并形成A的行动规划和决策。VLA的L不是用语言做显式的文字 推理,而是用人类语言提供的数据学习做隐式的逻辑推理,这才是L真正的核心。很多人以为L就是输出在交互界面的那几行文字以及语音控制命令,这个理解是 不对的。其实文字输出和语音输入都是可选的,输不输出都不太关键(看人类想不想要),真正发挥作用的是背后推理的长思维链。如果没有强大的L,再好的V 和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球, ...
这家倒闭新势力宣布复活!
自动驾驶之心· 2025-09-08 03:32
复活了!9月6日,威马汽车通过官方公众号发布《致供应商白皮书》。 目前,深圳翔飞汽车销售有限公司已正式接管威马汽车,正全力推进威马EX5与E5车型在温州基地的快速 复产,同时计划未来5年向市场推出10款以上新产品,并挑战年产100万辆的目标。 最近,国内汽车行业正在从短暂的低谷走出来。 比如蔚来正迎来新的拐点,零跑的增长还在持续,小鹏汽 车八月份的销量也同比增长了169%!智能驾驶的道路远未结束,最近行业内也掀起了新一轮的技术探讨: VLA还是WA,L3的技术路线出现了分歧,我们还有很多很多事情可以做。 这也是我们一直坚持做自动驾驶社区的原因! 三年期间社区内部一直聚焦在自动驾驶最前沿的技术方向,多模态大模型、VLM、VLA、闭环仿真、世界 模型、扩散模型、端到端自动驾驶、规划控制、多传感器融合等 近40个技术方向的内容 。涵盖了目前所有 主流的方向,并形成了技术路线,适合入门进阶的同学做进一步提升。 社区成员主要分布在头部的自驾/具身/互联网公司、Top高校实验室、还有一些传统的机器人公司。形成工 业界+学术界互补的态势。如果您真的有需要,想要做系统提升、和更多的同行业人员交流,欢迎加入。开 学季大额优惠, ...
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心· 2025-09-07 23:34
Core Insights - The article discusses the evolution and challenges of embodied intelligence, emphasizing the need for a comprehensive understanding of its development, issues faced, and future directions [4][5]. Group 1: Robotic Manipulation - The survey on robotic manipulation highlights the transition from mechanical programming to embodied intelligence, focusing on the evolution from simple grippers to dexterous multi-fingered hands [6][7]. - Key challenges in dexterous manipulation include data collection methods such as simulation, human demonstration, and teleoperation, as well as skill learning frameworks like imitation learning and reinforcement learning [6][7]. Group 2: Navigation and Manipulation - The discussion on robotic navigation emphasizes the high costs and data difficulties associated with real-world training, proposing Sim-to-Real transfer as a critical solution [8][13]. - The evolution of navigation techniques is outlined, transitioning from explicit memory to implicit memory, while manipulation methods have expanded from reinforcement learning to imitation learning and diffusion strategies [13][14]. Group 3: Multimodal Large Models - The exploration of embodied multimodal large models (EMLMs) indicates their potential to bridge the gap between perception, cognition, and action, driven by advancements in large model technologies [15][17]. - Challenges identified include cross-modal alignment difficulties, high computational resource demands, and weak domain generalization [17]. Group 4: Embodied AI Simulators - The analysis of embodied AI simulators reveals their role in enhancing the realism and interactivity of training environments, with a focus on 3D simulators and their applications in visual exploration and navigation [18][22]. - Key challenges for simulators include achieving high fidelity, scalability, and effective interaction capabilities [22]. Group 5: Reinforcement Learning - The survey on reinforcement learning in vision outlines its application in multimodal large language models and the challenges posed by high-dimensional visual inputs and complex reward designs [24][27]. - Core research directions include optimizing visual generation and enhancing cross-modal consistency through reinforcement learning [27]. Group 6: Teleoperation and Data Collection - The discussion on teleoperation of humanoid robots highlights the integration of human cognition with robotic capabilities, particularly in hazardous environments [28][30]. - Key components of teleoperation systems include human state measurement, motion retargeting, and multimodal feedback mechanisms [30]. Group 7: Vision-Language-Action Models - The comprehensive review of vision-language-action (VLA) models outlines their evolution and applications across various fields, including humanoid robotics and autonomous driving [31][34]. - Challenges in VLA models include real-time control, multimodal action representation, and system scalability [34].