自动驾驶之心

Search documents
NeurIPS'25 Spotlight!自驾新范式FSDrive: VLA + 世界模型双管齐下(阿里&西交)
自动驾驶之心· 2025-09-21 23:32
视觉语言模型(VLMs)因其强大的推理能力,在自动驾驶领域受到日益广泛的关注。然而,现有VLMs通常采用针对特定场景设计的离散文本思维链(Chain-of-Thought, CoT),这种表征本质上是对视觉信息的高度抽象和符号化压缩,可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模, 而非纯粹依赖符号逻辑?本文提出一种时空思维链(spatio-temporal CoT)推理方法,使模型可视化地思考。 首先VLM作为世界模型生成统一图像帧以预测未来世界状态:其中感知结果(如车道分隔线和3D检测)表征未来的空间关系,普通未来帧则表征时间演化的动态关系。 该时空思维链作为中间推理步骤,使VLM能够充当逆动力学模型,基于当前观测和未来预测进行轨迹规划。为实现VLM的视觉生成能力,提出了统一视觉生成与理解的 预训练范式,并设计渐进式生成过程增强自回归图像生成方法。大量实验结果验证了该方法的有效性,推动自动驾驶迈向视觉推理。 项目链接:https://miv-xjtu.github.io/FSDrive.github.io/ 论文链接:https://arxiv.org/abs/ ...
4D标注与数据闭环,对一家自动驾驶公司究竟有多么重要?
自动驾驶之心· 2025-09-21 23:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶的第一性原理—数据驱动 而自动标注的核心则在于高性能的自动标注算法,面对不同城市、道路、天气和交通状况的智驾场景, 如何做好不同传感器的标定和同步? 如何处理跨传感器遮挡问 题? 算法如何保持泛化性? 如何筛选高质量的自动化标注结果? 又如何做好自动化质检? 全都是当下业内自动标注实际面临的痛点! 结课优惠!扫码学习课程 自动标注难在哪里? 自动驾驶数据闭环中的4D自动标注(即3D空间+时间维度的动态标注)难点主要体现在以下几个方面: 1. 时空一致性要求极高 :需在连续帧中精准追踪动态目标(如车辆、行人)的运动轨迹,确保跨帧标注的连贯性,而复杂场景下的遮挡、形变或交互行为易导致标注断 裂; 2. 多模态数据融合复杂 :需同步融合激光雷达、相机、雷达等多源传感器的时空数据,解决坐标对齐、语义统一和时延补偿问题; 3. 动态场景泛化难度大 :交通参与者的行为不确定性(如突然变道、急刹)及环境干扰(光照变化、恶劣天气)显著增加标注模型的适应性挑战; 4. 标注效率与成本矛盾 :高精度4D自动标注依赖人工校 ...
头部具身智能人形机器人公司最新估值/市值
自动驾驶之心· 2025-09-21 23:32
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 头部具身智能人形机器人公司最新估值或市值一览。除了已上市公司外,这里展示的都是已完成或 正在交割的真实估值,未经实际交割、未获交易确认的估值均未列入,单位为人民币。注意,各公 司成立时间和融资阶段差异大。估值高低与技术、商业化水平不能简单划等号。 以下数字仅做参考,如有不足或者遗漏,欢迎后台留言。 Figure AI 2736亿 乐聚机器人 80亿 优必选 555亿 Sklid AI 324亿 Physical Intelligence 170亿 宇树科技 160亿 智元机器人 150亿 Apptronik 144亿 Field AI 144亿 Agility Robotics 126亿 云深处机器人 80亿 傅利叶机器人 80亿 World labs 70亿 Sanctuary AI 70亿 Boston Dynamics 70亿 银河通用 70亿 星海图 70亿 自变量 60亿 ...
和Seed大佬交流了下,自动驾驶大模型还有些小儿科。。。
自动驾驶之心· 2025-09-21 23:32
一个认真做内容的社区,一个培养未来领袖的地方。 如果您想做进一步学习,也欢迎加入我们的大模型之心Tech知识星球。大模型之心Tech知识星球,我们目标是构建一个国内最大的大模型技术社区, 一直在给行业和个人输送各类人才、产业学术信息。目标星球正在快速搭建相关模块,欢迎加入我们与大模型同行。 自动驾驶VLA这么火,想借这个机会了解更多大模型相关的技术知识,有哪些方向可以做,现在热点在哪里?为此,我们筹备了大模型之心Tech社 区,平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等等。欢迎对大模型技术感兴趣 的小伙伴关注我们~ ...
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 06:59
Group 1 - The article announces the recruitment of 10 partners for the autonomous driving sector, focusing on course development, paper guidance, and hardware research [2] - The recruitment targets individuals with expertise in various advanced technologies such as large models, multimodal models, and 3D target detection [3] - Candidates from QS200 universities with a master's degree or higher are preferred, especially those with significant conference contributions [4] Group 2 - The compensation package includes resource sharing for job seeking, PhD recommendations, and study abroad opportunities, along with substantial cash incentives [5] - The company encourages potential partners to reach out via WeChat for collaboration inquiries, specifying the need to mention their organization or company [6]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-20 16:03
欢迎大家加入一起交流相关的内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称 +方向加群。 自动驾驶之心技术交流群成立了,开学季&秋招期我们开放了几个技术交流群(世界模型/端到端/VLA等方 向)。 ...
头部具身智能人形机器人公司最新估值/市值
自动驾驶之心· 2025-09-20 16:03
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 头部具身智能人形机器人公司最新估值或市值一览。除了已上市公司外,这里展示的都是已完成或 正在交割的真实估值,未经实际交割、未获交易确认的估值均未列入,单位为人民币。注意,各公 司成立时间和融资阶段差异大。估值高低与技术、商业化水平不能简单划等号。 以下数字仅做参考,如有不足或者遗漏,欢迎后台留言。 Figure AI 2736亿 优必选 555亿 Sklid AI 324亿 Physical Intelligence 170亿 宇树科技 160亿 智元机器人 150亿 Apptronik 144亿 Field AI 144亿 Boston Dynamics 70亿 银河通用 70亿 星海图 70亿 自变量 60亿 它石智航 50亿 Agility Robotics 126亿 云深处机器人 80亿 傅利叶机器人 80亿 乐聚机器人 80亿 World labs 70亿 Sanctuar ...
但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心· 2025-09-20 16:03
这个暴论需要叠加很多buff,但我想说的确实就是这个标题。也算是和大家对齐一下认知。 这个暴论自然引申出一个问题: 不训练大模型怎么办? 为什么不要微调?因为没有模型的原始数据配比,更有可能原始的训练数据都没有,微调之后极有可能损失掉大 部分的性能。 那如果开源模型在特定领域的效果非常差,怎么办? 如果是很垂类的领域模型,可以先试试RAG,不行就试试In-context Learning,在上下文中,教LLM一些领域知 识。能尝试的低成本方案都尝试后,再考虑垂类领域模型的微调训练! 一些实际使用过程中的经验,将最需要脑子的任务交给o1系列模型,比较需要脑子的任务,交给4o这一梯队的 模型。 除了付费的模型,还可以考虑国产的大模型,点名表扬DeepSeek、豆包、Qwen等等开源大模型。 这其实就是Agentic AI的思路。 如果你的业务在上面的方案中都跑不通,那么自己训练模型大概率也是白瞎。大模型时代,基础模型能力的每一 次提升,都算是一次地球Online的版本更新。 距离大厂基座模型团队之外的AI人,需要先了解现有LLM的性能边界,敏锐的分辨出现有模型能力和过去方案 的差异,能否给当前的业务带来新的变化, ...
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-20 16:03
Core Insights - The article discusses the current state of end-to-end (E2E) technology in both academia and industry, highlighting the differences in approach and data availability between the two sectors [1][4][5] - It emphasizes the importance of data iteration speed in the AI model development process, suggesting that a slow data iteration can hinder technological advancements [2][4] - The article also explores the role of reinforcement learning in enhancing Vision-Language Models (VLA), particularly in scenarios where there are no definitive correct answers [6][7][9][10] Summary by Sections End-to-End Technology - The academic field is experiencing a proliferation of end-to-end methodologies, with various approaches emerging [1] - In contrast, the industrial sector is more pragmatic, facing computational limitations that exclude some popular models, but benefiting from vast amounts of data [4] - The success of models like ChatGPT is attributed to the internet's ability to provide extensive data, which is also true for the automotive industry where companies can easily gather massive driving data [4] Data and Technology Iteration - The article stresses that as technology evolves rapidly, the iteration of datasets must keep pace; otherwise, it will impede technological progress [2] - Research teams are increasingly publishing datasets alongside their papers to maintain high-impact outputs [3] Reinforcement Learning and VLA - Reinforcement learning is suitable for problems where there are no correct answers, only characteristics of correct and incorrect answers [7] - The training process in reinforcement learning allows for the identification of optimal solutions based on reward systems, thus reducing the need for extensive demonstration data [9] - The article notes that while short-term results of VLA applications may be uncertain, the long-term potential is widely recognized [10][11] Future of VLA - The article suggests that the importance of algorithms in VLA models extends beyond mere performance metrics; factors such as data availability and training strategies are crucial [12] - The community is encouraged to engage in discussions about the development and challenges of autonomous driving technologies [5][13][16]
任少卿加入中科大......
自动驾驶之心· 2025-09-20 05:35
参考 | 量子位 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 任少卿去中科大了! AI大神任少卿开始在母校中国科学技术大学,开班招生了。 任少卿,曾任Momenta联合创始人、蔚来汽车副总裁,07级中科大本硕博(微软亚洲研究院联合培养),ResNet和Faster R-CNN作者。学术高被引超44 万,是全球中国籍学者高被引第一。ResNet也是21世纪全球最高被引论文。获未来科学大奖-数学与计算机科学奖。 招生方向为AGI、世界模型、具身智能、AI4S等。 硕士、博士生都在招。有推免资格的学生,下周一(22日)开启紧急面试。 更多内容 自动驾驶产业和学术最新咨询,欢迎加入自动驾驶之心知识星球,国内最大的自驾社区平台。 ...