自动驾驶之心 - filings, earnings calls, financial reports, news

自动驾驶之心

Search documents

自动驾驶之心· 2025-09-08 23:33

作者 | XiuQ 编辑 | 自动驾驶之心点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 ★ 前段时间阅读到这篇论文，利用强化学习，self-play 方式，不使用任何真实数据， zero-shot 在CARLA, nuPlan, waymax 上达到的SOTA. 论文结果很amazing，并且给出了较为详细的细节，本文是笔者的阅读笔记，以供后期回顾，也供大家参考，若有纰漏，欢迎友好指正，也欢迎大家一起交流学习。笔记将主要抽取总结论文关键脉络，更多细节十分推荐阅读原文。强化学习回顾原文链接： https://www.zhihu.com/question/547768388/answer/114467872460 RL 交互流程强化学习的主要框架如上图所示，强化学习的任务是寻找一个使agent 在与环境交互过程中的累计回报期望最大。强化学习的几个核心点是对于自动驾驶而言，将强化学习用在自动驾驶，环境演化和Reward设计可能相对较难。主要 ...

清华最新综述！200+文献全面凝练Agentic RAG最新进展~

自动驾驶之心· 2025-09-08 23:33

点击下方卡片，关注" 大模型之心Tech "公众号戳我 -> 领取大模型巨卷干货检索增强生成（Retrieval-Augmented Generation, RAG）通过注入外部知识提升了大语言模型的事实性，但在需要多步推理的问题上表现欠佳；反之，纯推理导向的方法则常出现生成幻觉内容（hallucination）或事实依据不足的问题。本综述从"推理-检索协同"这一统一视角，整合了上述两大研究方向。首先，本文梳理了先进推理技术如何优化RAG的各个阶段（即"推理增强型RAG"）；其次，阐述了不同类型的检索知识如何为复杂推理补充缺失前提并扩展上下文（即"RAG增强型推理"）；最后，重点聚焦新兴的"协同式RAG-推理框架"——在这类框架中，具备智能体能力（agentic）的LLM会迭代交替执行搜索与推理操作，从而在各类知识密集型基准测试中实现当前最优性能。本文对相关方法、数据集及开放挑战进行了分类梳理，并勾勒出未来研究方向，旨在构建更高效、多模态适配、可信且以人为本的深度RAG-推理系统。汇总链接：https://github.com/DavidZWZ/Awesome-RAG-Reasoning ...

端到端数据驱动闭环来了！三大突破引领行业进入 “数据闭环” 新时代

自动驾驶之心· 2025-09-08 23:33

以下文章来源于51WORLD ，作者致力于克隆地球的 51WORLD . 51WORLD是一家致力于克隆地球5.1亿平方公里的科技公司，通过建立一个数字孪生世界来改变世界。 2025 年，中国汽车产业加速进入端到端时代，数据驱动闭环面临着全新的机遇与挑战。站在行业关键拐点，51Sim于 Testing Expo China 2025 - Automotive 同期举办的「向真而行！51Sim端到端数据闭环生态论坛」上，正式发布 "端到端数据驱动闭环" 。该方案在仿真置信度、AI赋能、数据复用三大领域实现里程碑式突破，打破端到端数据驱动闭环的多个关键技术瓶颈，旨在为行业创造领先的解决方案，助力全产业链构建端到端时代的新核心竞争力与技术壁垒，加速推动高阶智能驾驶迈向规模化量产落地。数据驱动闭环升级所谓端到端，是指一端输入图像等环境感知数据，经由多层神经网络模型的"黑箱"处理，直接输出转向、制动、加速等驾驶指令。其本质是基于数据驱动的技术路线，需要大量的高质量数据对端到端大模型进行训练。端到端时代下，数据驱动闭环的重要性空前提升，但也面临着多重挑战：置信度突破，让数据更真端到端模型依 ...

花了很久，才整理好的大模型学习路线......

自动驾驶之心· 2025-09-08 23:33

Core Insights - The article emphasizes the growing interest in large model technologies, particularly in areas like VLA and VLM, and the high demand for talent skilled in RAG and AI Agent technologies [1][3] - The establishment of a community focused on large models aims to provide a platform for knowledge sharing and technical exchange among practitioners and learners in the field [6][8] Group 1: Community and Learning Opportunities - The "大模型之心Tech" community is designed to be a comprehensive platform that integrates video, text, learning paths, Q&A, and job exchange, with a goal of reaching nearly 10,000 members in two years [3][6] - The community invites experts from renowned universities and leading companies in the AI and internet sectors, creating a hub for cutting-edge technology discussions [6][68] - Members will have access to job recommendations and industry insights, facilitating connections with potential employers [8][9] Group 2: Learning Pathways - A detailed learning roadmap for large models has been compiled, covering various areas such as RAG, AI Agent, and multimodal models, catering to both beginners and advanced learners [7][11] - Specific learning routes include Graph RAG, AI Agent core technologies, and multimodal model training, providing structured resources for systematic learning [7][11] Group 3: Technical Resources - The community offers extensive resources on RAG, including benchmarks, reviews, and applications in AIGC, aimed at helping newcomers understand the technology [12][25] - For AI Agents, the community provides insights into the latest reviews, open-source repositories, and evaluation methods, further detailing subfields like multi-agent systems [27][33] - Resources on multimodal model training, including datasets and reinforcement learning techniques, are also available, with plans for continuous enrichment of these modules [44][55] Group 4: Engagement and Events - The community plans to host live sessions with industry leaders, allowing members to engage with top experts and revisit the content as needed [67] - A focus on job sharing and recruitment information will empower members to find relevant job opportunities in the field [68]

博士毕业的3篇CCF-A文章都是怎么发出来的？

自动驾驶之心· 2025-09-08 10:56

最近收到了许多同学在论文发表上的求助，学校绕不开一篇三区论文硕士毕业，没有三篇CCF-A博士都毕不了业，老师对这个新的方向不熟悉，开展不了工作。一直在为论文选题绞尽脑汁，实验设计总遇瓶颈，写作逻辑混乱不清，投稿屡屡被拒！尤其是在前沿且复杂的自动驾驶、具身智能、机器人领域，真的有点力不从心。一篇好的论文需要有好的切入点，哪个方向更容易产出，这一个判断尤为重要！剩下的就是怎么论证这个idea work，比当前SOTA有效（如果是A类会议）。实验的设计也非常重要，特别是消融实验，要摸清是什么因素导致的提升。后期的写作技巧，取决于你是否能够让审稿人眼前一亮，如何回复审稿意见也是需要经验的。筹备了近1年，我们的论文辅导正式推出了，主要面向自动驾驶/具身智能/机器人领域。我们是谁？国内最大的AI类技术自媒体平台，IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台，拥有国内最顶尖的学术资源。深耕自动驾驶、具身智能、机器人方向多年。我们深刻理解这些交叉学科的挑战与机遇，更明白一篇高质量论文对于学生（尤其是硕博生）学业和未来发展的重要性。我们目前有300+专职于自动驾驶/具身智能方向的老师。来自于 ...

自动驾驶之心招募令！世界模型/模型部署/VLA方向

自动驾驶之心· 2025-09-08 09:09

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线业务合伙人自动驾驶之心业务合伙人招募来啦！我们团队今年计划向国内外招募10名优秀的合伙人，负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发；主要方向自动驾驶资源共享（求职、读博、出国留学推荐等）；丰厚的现金激励；创业项目合作与推荐；联系我们如果您是大模型/多模态大模型、世界模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D 目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向，欢迎加入我们；岗位要求 QS200以内高校，硕士及以上学历，手握顶会的大佬优先。待遇说明更多欢迎添加微信咨询，备注" 机构/公司 + 自动驾驶合作咨询 "。 ...

3DGS和重建方向，师兄推荐了这个3D激光扫描仪...

自动驾驶之心· 2025-09-08 09:09

最强性价比3D激光扫描仪面向工业场景和教研场景的超高性价比3D扫描仪来了！GeoScan S1是国内目前最强性价比实景三维激光扫描仪，轻量化设计，一键启动，便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心，实现厘米级精度的三维场景实时重构。可广泛用于多种作业领域。每秒20万级点云成图，70米测量距离，360°全域覆盖，支持20万平米以上的大场景，扫描可选配3D高斯数据采集模块，实现高保真实景还原。支持跨平台集成，配备高带宽网口及双USB 3.0接口，为科研实验提供灵活扩展空间。降低开发门槛，助力开发者快速掌握研发能力，开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备，手柄集成了电源，可通过D-TAP转XT30母头输出至 GeoScan S1设备本体，给雷达、摄像头以及主控板提供电源。基础版重建效果一览！使用门槛低：操作简单直观，一键启动即可执行扫描作业扫描结果导出即用：无需复杂部署和繁琐处理，扫描结果导出即用高效率高精度建图：模型精度高，行走之间轻松扫描大场景业内最优惠价格：性价比高，高度集成多传感器，往下翻~ 重磅！3DG ...

理想汽车如何看待VLA里语言部分的作用

自动驾驶之心· 2025-09-08 03:32

来源 | 理想TOP2 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线语言是认知世界的框架，而不仅是沟通工具。人类所能思考、理解和表达的一切，都被限制在语言的范畴之内。我们所理解的世界，很大程度上是我们所使用的语言的产物，对于无法用语言表述的事物，我们难以形成清晰的思想。而且，不同的语言以其独特的词汇、语法和结构，为使用者提供了不同的认知框架。所以我们会看到，来自于不同语言体系的人，其思维方式是有差别的。在VLA架构里面，V是感知，A是动作，而L承担的是语言能力部分。L对V感知的内容做出认知理解并形成A的行动规划和决策。VLA的L不是用语言做显式的文字推理，而是用人类语言提供的数据学习做隐式的逻辑推理，这才是L真正的核心。很多人以为L就是输出在交互界面的那几行文字以及语音控制命令，这个理解是不对的。其实文字输出和语音输入都是可选的，输不输出都不太关键（看人类想不想要），真正发挥作用的是背后推理的长思维链。如果没有强大的L，再好的V 和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰，论行动速度比不过猎豹，但人之所以能够称霸地球， ...

这家倒闭新势力宣布复活！

自动驾驶之心· 2025-09-08 03:32

复活了！9月6日，威马汽车通过官方公众号发布《致供应商白皮书》。目前，深圳翔飞汽车销售有限公司已正式接管威马汽车，正全力推进威马EX5与E5车型在温州基地的快速复产，同时计划未来5年向市场推出10款以上新产品，并挑战年产100万辆的目标。最近，国内汽车行业正在从短暂的低谷走出来。比如蔚来正迎来新的拐点，零跑的增长还在持续，小鹏汽车八月份的销量也同比增长了169%！智能驾驶的道路远未结束，最近行业内也掀起了新一轮的技术探讨： VLA还是WA，L3的技术路线出现了分歧，我们还有很多很多事情可以做。这也是我们一直坚持做自动驾驶社区的原因！三年期间社区内部一直聚焦在自动驾驶最前沿的技术方向，多模态大模型、VLM、VLA、闭环仿真、世界模型、扩散模型、端到端自动驾驶、规划控制、多传感器融合等近40个技术方向的内容。涵盖了目前所有主流的方向，并形成了技术路线，适合入门进阶的同学做进一步提升。社区成员主要分布在头部的自驾/具身/互联网公司、Top高校实验室、还有一些传统的机器人公司。形成工业界+学术界互补的态势。如果您真的有需要，想要做系统提升、和更多的同行业人员交流，欢迎加入。开学季大额优惠， ...

从近1000篇工作中，看具身智能的技术发展路线！

自动驾驶之心· 2025-09-07 23:34

Core Insights - The article discusses the evolution and challenges of embodied intelligence, emphasizing the need for a comprehensive understanding of its development, issues faced, and future directions [4][5]. Group 1: Robotic Manipulation - The survey on robotic manipulation highlights the transition from mechanical programming to embodied intelligence, focusing on the evolution from simple grippers to dexterous multi-fingered hands [6][7]. - Key challenges in dexterous manipulation include data collection methods such as simulation, human demonstration, and teleoperation, as well as skill learning frameworks like imitation learning and reinforcement learning [6][7]. Group 2: Navigation and Manipulation - The discussion on robotic navigation emphasizes the high costs and data difficulties associated with real-world training, proposing Sim-to-Real transfer as a critical solution [8][13]. - The evolution of navigation techniques is outlined, transitioning from explicit memory to implicit memory, while manipulation methods have expanded from reinforcement learning to imitation learning and diffusion strategies [13][14]. Group 3: Multimodal Large Models - The exploration of embodied multimodal large models (EMLMs) indicates their potential to bridge the gap between perception, cognition, and action, driven by advancements in large model technologies [15][17]. - Challenges identified include cross-modal alignment difficulties, high computational resource demands, and weak domain generalization [17]. Group 4: Embodied AI Simulators - The analysis of embodied AI simulators reveals their role in enhancing the realism and interactivity of training environments, with a focus on 3D simulators and their applications in visual exploration and navigation [18][22]. - Key challenges for simulators include achieving high fidelity, scalability, and effective interaction capabilities [22]. Group 5: Reinforcement Learning - The survey on reinforcement learning in vision outlines its application in multimodal large language models and the challenges posed by high-dimensional visual inputs and complex reward designs [24][27]. - Core research directions include optimizing visual generation and enhancing cross-modal consistency through reinforcement learning [27]. Group 6: Teleoperation and Data Collection - The discussion on teleoperation of humanoid robots highlights the integration of human cognition with robotic capabilities, particularly in hazardous environments [28][30]. - Key components of teleoperation systems include human state measurement, motion retargeting, and multimodal feedback mechanisms [30]. Group 7: Vision-Language-Action Models - The comprehensive review of vision-language-action (VLA) models outlines their evolution and applications across various fields, including humanoid robotics and autonomous driving [31][34]. - Challenges in VLA models include real-time control, multimodal action representation, and system scalability [34].