Workflow
自动驾驶之心
icon
Search documents
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-07 16:04
端到端之后,学术界和工业界聚焦的方向是什么?无疑是VLA。VLA提供了类人思考的能力,把车辆决策的过程通过思维链的形式展现出来,从而提 供更可靠更安 全的自动驾驶能力。 自动驾驶VLA目前可以分为模块化VLA、一体化VLA和推理增强VLA三个子领域。 自动驾驶VLA涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等等。最前沿的算法包括CoT、MoE、RAG、强化学习。通过学 习VLA,可以让自己对自动驾驶的感知系统有更深刻的认知。 《自动驾驶VLA与大模型实战课程》这门课程包含自动驾驶VLA三个子领域前沿算法的细致讲解,并会配备两个实战及一个课程大作业深入理解自动驾驶VLA。 扫码报名!名额仅剩10个 讲师介绍 而传统的BEV感知、车道线、Occupancy等方向相对成熟了,无论是学术界或工业界关注度都在逐渐下降。目前 自动驾驶VLA是各家企业急需攻克的方案。主流的 自动驾驶企业,无论是智驾方案供应商还是车企,都在发力自动驾驶VLA的自研。 为此,我们联合清华的教研团队, 花了三个月的时间设计了一套自动驾驶VLA 的学习路线图, 从原理到实战细致展开。 咖喱,清华大学硕士生 : ...
李飞飞团队25年研究大盘点:从视觉理解到具身智能的全景图谱
自动驾驶之心· 2025-11-07 00:05
Core Insights - The research team led by Professor Fei-Fei Li at Stanford University has made significant advancements in artificial intelligence, focusing on human-centered AI and its applications in various domains [2][3][19]. - The team's work emphasizes a holistic approach to AI, integrating perception, modeling, reasoning, and decision-making to create intelligent systems that can understand and reconstruct the world [3][19]. Research Achievements in 2025 - The team has achieved notable results in generative modeling, developing a framework that enhances the transfer of knowledge from 2D to 3D environments, showcasing improved generalization and scalability [3][19]. - In the area of embodied intelligence, the team has successfully integrated affordance learning and action constraints to enable robots to generalize across different tasks and environments [3][19]. - The research on semantic reasoning and human-machine understanding has strengthened model consistency in dynamic environments, enhancing the alignment between visual and language inputs [3][19]. - The team has actively contributed to AI governance and social responsibility, advocating for policy assessments and safety frameworks in cutting-edge AI technologies [3][19]. Specific Research Contributions - The MOMAGEN framework addresses the challenge of efficiently generating demonstration data for multi-step robotic tasks, significantly improving data diversity and generalization capabilities with minimal real data [5][7]. - The Spatial Mental Modeling study introduces a new benchmark, MINDCUBE, to evaluate visual language models' ability to construct spatial mental models from limited views, revealing the importance of internal spatial structure representation [9][10]. - The UAD framework allows for unsupervised extraction of affordance knowledge from large-scale models, enhancing robotic manipulation capabilities in open environments without manual labeling [10][12]. - The Grafting method enables efficient exploration of diffusion transformer designs without the need for retraining, achieving high-quality generation with minimal computational resources [12][14]. - The NeuHMR framework improves 3D human motion reconstruction by utilizing neural rendering, enhancing robustness and accuracy in complex scenarios [14][16]. - The BEHAVIOR ROBOT SUITE provides a comprehensive platform for real-world robotic manipulation tasks, demonstrating capabilities in dual-arm coordination and precise navigation [16][18]. - The MOMA-QA dataset and SGVLM model advance video question answering by emphasizing fine-grained temporal and spatial reasoning, significantly outperforming existing methods [18][19]. - The Gaussian Atlas framework facilitates the transfer of knowledge from 2D diffusion models to 3D generation tasks, bridging the gap between these two domains [18][19]. Keywords for 2025 - Cognition, Generation, Embodiment, Transfer, Explainability [20]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-11-07 00:05
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 理想汽在ICCV'25期间也分享了些新东西!目前还没有视频对外。 VLA团队负责人詹锟老师做了一场世界模型的presentation,名为World Model: Evolving from Data Closed-loop to Training Closed-loop。自动驾驶之心第一时间做了解 读分享给大家~ 首先是介绍下理想VLA司机大模型: 回顾了理想汽车智能驾驶的发展路线,从规则时代的轻图和无图,再到基于AI的E2E+VLM快慢双系统和VLA, 这四个方案中Nav(导航)是重点突出的模块。 下面介绍的是数据闭环的价值。左上角这张图是一个完整的数据闭环流程: 影子模式验证→经由数据触发回传到云端进行数据挖掘→有效样本进行自动标注→生 成训练集训练模型→模型下发验证性能。 这个过程已经可以做到一分钟的数据回传。 目前已经有15亿公里的驾驶数据,200+的Trigger来生产15-45s的Clip数据。 目前理想的端到端量产版本MPI已经到了220+, ...
需要撕衣验证?全网都吵疯了!小鹏的人形机器人,是不是真人
自动驾驶之心· 2025-11-07 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨机器之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 物理 AI,已经能让人产生错觉了? 这是机器人还是真人? 从昨天到今天,全球大半个互联网都在讨论小鹏的人形机器人 IRON。 大家的「福尔摩斯」本能瞬间觉醒。 小红书网友热议,发布会上步态演示的机器人,其实是真人 + 皮套。 不过,面对铺天盖地的讨论,小鹏似乎一点也不慌。在一个网友评论:「100% 真人在里面」的下面, 何小鹏回应道:「感谢认可。」 11 月 6 日,小鹏汽车在广州新总部举行 AI Day 2025,正式宣布 —— 这不再只是造车公司,而是一 家 AI 公司。 基于自研的 Xpeng VLA 2.0 大模型,小鹏衍生出一整套 AI 定义的应用,最新一代人形机器人 IRON 一出场,旋即引发大量讨论。 小鹏在机器人领域已深耕 7 年。从最早的四足形态一路进化,如今终于来到完全类人的阶段。 IRON 拥有全新的「类人骨骼结构」、仿生肌肉系 ...
特斯拉的场景重建值得国内重视,前馈GS才是未来方向......
自动驾驶之心· 2025-11-07 00:05
Core Viewpoint - The article emphasizes the advancements in Tesla's world model and its implementation of FeedForward GS, which significantly enhances the efficiency and accuracy of 3D scene reconstruction compared to traditional methods [2][4]. Group 1: Tesla's Technological Advancements - Tesla utilizes FeedForward GS to create 3D scenes directly from visual inputs, reducing optimization time from 30 minutes to 220 milliseconds, eliminating reliance on point cloud initialization [4]. - The comparison between traditional GS and Tesla's generative GS shows substantial improvements in dynamic target clarity and artifact reduction, indicating a strong competitive edge for Tesla in the autonomous driving sector [4]. Group 2: Industry Implications - The advancements made by Tesla are likely to prompt domestic competitors to enhance their capabilities, leading to increased demand for related job positions in the industry [4][6]. - The rapid iteration of 3DGS technology is attracting attention in both academic and industrial circles, highlighting the need for effective learning pathways for newcomers in the field [7]. Group 3: Educational Initiatives - An educational program titled "3DGS Theory and Algorithm Practical Tutorial" has been developed to provide a comprehensive learning roadmap for 3DGS technology, covering everything from foundational theories to practical applications [7]. - The course includes various chapters focusing on background knowledge, principles and algorithms, autonomous driving applications, important research directions, and the latest developments in Feed-Forward 3DGS [11][12][13][14][15]. Group 4: Course Structure and Requirements - The course is structured to span approximately two and a half months, with specific unlock dates for each chapter, allowing participants to progress systematically [18]. - Participants are required to have a GPU with a recommended capability of 4090 or higher, along with a foundational understanding of computer graphics, visual reconstruction, and relevant programming skills [20].
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 08:43
Core Insights - The article discusses the WorldVLA framework, which integrates Visual Language Action models (VLA) with world models to enhance AI's understanding of the environment [1][4][36] - WorldVLA demonstrates superior performance compared to independent action and world models, showcasing a synergistic effect between the two [2][18] Group 1: Framework Overview - WorldVLA is designed as a unified autoregressive action world model that combines action and image understanding for improved predictive capabilities [4] - The framework utilizes three independent tokenizers for encoding images, text, and actions, optimizing the representation of visual and action data [8] Group 2: Model Performance - Benchmark results indicate that WorldVLA outperforms discrete action models like OpenVLA, even without pre-training, validating its architectural design [19][21] - The model's performance improves with higher image resolutions, with 512x512 pixels showing significant enhancements over 256x256 pixels [22][23] Group 3: Mutual Enhancement - The world model enhances action generation by understanding physical laws and predicting future states based on current actions [14][25] - Conversely, the action model improves the visual understanding of the world model, leading to more contextually relevant actions [17][30] Group 4: Practical Applications - WorldVLA's ability to predict the outcomes of candidate actions aids in optimizing decision-making processes, thereby increasing task success rates [26] - The framework demonstrates practical advantages in complex scenarios, such as successfully executing tasks that pure world models struggle with [32]
智驾将往何处去?第一次自动驾驶圆桌纪实
自动驾驶之心· 2025-11-06 00:04
作者 | 刘斯坦 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1961979708389438749 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 和 具身智能之心 做了好几期圆桌了, 听众越来越多,影响越来越大。节前同一个机构的分号 自动驾驶之心 找我说搞一搞智驾的圆桌,我才反应过来这才是我的老本 行啊,当下就答应了。 这一次圆桌请到了博世中央研究院自动驾驶行车的负责人 孙昊博士 ,BV百度风投 副总裁柯迪 ,长安汽车泊车负责人 许凌云博士 和加州伯克利人工智能实验室博后 研究员 郑文钊博士 。博世的孙昊博士入行智驾领域十年,如今致力于面向量产的研究,DiffVLA,Impromptu VLA和IRL-VLA连续sota;柯迪总投出了很多智驾和具 身的明星公司,对行业有深刻理解;许凌云博士曾在多家主机厂担任技术高管,对量产和高阶算法的产品化落地极有心得;而郑文钊博士是OCC感知和表征学习领域 的顶流,代表了全世界最 ...
小鹏刚刚发布了VLA 2.0,但去掉了语言转译......
自动驾驶之心· 2025-11-06 00:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 小鹏昨天刚刚发布了VLA 2.0,很有意思。 今天柱哥就和大家一起聊下,目前从网上看到的消息有几个关键点总结下: 等后面有更多的信息再详细总结以下,先分享几个网上的信息。 输入有视频、语言文本、指令、Ego,输出Action,另一部分的latent tokens输入到世界仿真器里和Action做交互强化学习。业内的思路整体上都大差不差,还是得看 工程优化做得咋样~ 小鹏的VLA两条路线:V/L→A和V→L→A,V/L→A去掉了语言转译,但仍然以视觉为核心; 首个量产物理世界大模型,最高有效算力达2250TOPS; 世界模型也有参与未来场景预测; 小鹏还是挺舍得在算力上砸钱的,但在一个偶然版本上看到希望... 小鹏VLA的两套方案并行研发,以往的V→L→A和最新的V/L→A。V/L→A更贴合最近特斯拉ICCV分享的内容,L不是作为中间件,而是V的并行输入。 目前开源的几篇算法也有类似的,比如ORION。这样模型可以同步输出感知结果、自车轨迹和对应的思维链。下图是ORION的算法框架: 未来小鹏也将入局robot ...
寻找散落在世界各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-11-06 00:04
虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 现面向全球的自动驾驶领域从业者发出邀请函,自动驾驶之心期望能够和您在技术服务、培训、课程开发与科 研辅导等多个领域展开合作。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近收到越来越多业内小伙伴和公司的诉求,希望自动驾驶之心能够在企业培训和求职辅导等方向上赋能。 企业培训的需求是多样的,从技术进展的梳理、到发布会方案的解读,以及行业发展的总结。 寻求辅导的同学往往受困于简历不够亮眼,急需一些项目补充和经验传授。 我们将提供高额的酬金与丰富的行业资源。 主要方向 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人群)、 课程开发和原创文章创作。 联系我们 感兴趣的可以添加微信wenyirumo做进一步咨询。 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到 端等多个方向。 ...
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 00:04
作者 | yzhangcs@知乎 编辑 | 青稞AI 原文链接:https://www.zhihu.com/question/1967345030881584585/answer/1967730385816385407 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 终于忙完了 Kimi Linear 的 Model Card 和 Paper ArXiv 上传,放空了半天。现在稍微分享一下个人感想,顺便做一些澄清。 Paper:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf代码:https://github.com/Moonshot 模型架构 模型整体架构设计如图所示,延续了 Moonlight 的设计思路,别的回答已经有不少优秀的解读了。这次最大的不同在于我们将MoE的稀疏度设置 得更激进,从8到32。 而 Kimi Linear 的核心设计原则,第一主要采用Linear Attenti ...