Workflow
自动驾驶之心
icon
Search documents
GEN-0:史上规模最庞大多元的具身真实世界操作数据集!
自动驾驶之心· 2025-11-11 00:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 多年来,机器人基础模型始终以视觉语言预训练作为规模化发展的基石,这使得我们能够将现有大的多模 态模型的语义泛化优势迁移至机器人领域。 然而scaling law好像在具身机器人领域不存在? 如何在本体机器人领域有效扩展大模型训练,建立可验证的扩展定律,证明机器人智能会随算力数据增长 持续提升,还没有充分论证。这需要一套能拓展新感知运动能力、实现行为泛化的架构训练流程与数据引 擎,并使其随真实物理世界交互产生的海量经验持续进化。 GEN-0来啦~ GEN-0是新型具身基础模型,由Generalist AI Team推出,专为直接基于高保真原始物理交互进行多模态训 练构建。其架构继承视觉语言模型优势又实现突破:原生设计可捕捉人类级条件反射与物理常识,核心特 性"谐波推理"使模型接受同步思维与行动的无缝训练。 项目介绍主页:https://generalistai.com/blog/nov-04-2025-GEN-0 与此同时,这些能力正在实现规模化演进: 跨本体通用性 :GEN-0 ...
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2025-11-11 00:00
自动驾驶领域,技术路线从开始基于规则的时期,逐渐转变为行业量产的以理想、小鹏等新势力智驾为代表的 端到端到VLA范式转变 时期 ,现阶段 来到以蔚来为代表的 世界模型时期 。 可以看出来, 无论技术路线怎么变,深度学习都一直存在 。 这也给 广大想要在这个技术飞快发展,担心随时被淘汰的"牛马"一个提示,学它! 不仅要学前沿理论和技术,还要学底层的基础理论,锻炼自己的代码能力 ,为了帮大家快速入门端到端和VLA,真正搞懂如何设计自己的端到端模型 , 我们联合了工业界和学术界的大佬开展了 《智驾升维——大 模型驱动的端到端之路》。 双十一特价优惠, 1.98 元 享试看 自驾 VLA 尖端课题组三节 课程介绍 从模块化的量产算法发展到端到端,再到如今的VLA。核心算法涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等等。 通过学习能够掌握端到端技术框架,对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻的了解; 可复现扩散模型、VLA等主流算 法框架;能够将所学应用到项目中。 大部分同学反馈学完全部课程后能够达到 1年左右端到端自动驾驶算法工程师水平 ,无论是实习、校招、社招都能从中 ...
一场关于自动驾驶VLA和世界模型的深度讨论!下周一不见不散~
自动驾驶之心· 2025-11-11 00:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 分享介绍 主讲嘉宾 詹锟 :理想汽车视觉-语言-动作(VLA)团队高级总监。硕士毕业于北京航空航天大学自动化专业,2017 年加入百度 Apollo,负责行为预测 方面的工作。2021 年加入理想汽车,从零开始搭建自动驾驶技术栈。自那时起,我们的团队取得了一系列里程碑——高速 NoA(2022 年)、 城市 NoA(2023 年)、端到端+VLM 双系统架构(2024 年)以及 VLA 框架(2025 年)。多年来,领导着自动驾驶全流程的开发工作——从 行为预测、静态/动态感知,到世界模型、VLM 和强化学习领域的大规模基础模型研究。 许凌云 :中国科学院博士,卡内基梅隆机器人研究所博士后。共发表12篇机器人领域顶级期刊或会议文章,获取过DARPA SUBT无人车挑战 赛2019年世界冠军。研究成果主要集中在目标检测、跟踪,从2019年到2024年专注于智能驾驶算法的开发,主导过多个行车和泊车量产项目 的落地。担任TIE、TITS、TRO、I ...
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-11 00:00
作者 | candywisdom 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1970953355355469364 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 从自动驾驶转到具身智能已经有一年的时间了,之前在自动驾驶上一系列工作和一些个人思考还一直没有好好的做个总结。(Ps: 虽然广义来说,自动驾驶属于具身智 能的子领域,但是现阶段二者所面临的问题和解决问题的具体方式还是存在较大差异,所以还是算是进入了一个转向了一个新的方向。) 可预期的短时间内,主要精力投入应该不会放在自动驾驶上了,但总觉得该给自动驾驶的这段经历留个记录。倒不是说这些工作多"惊天动地",反而有些是"关注度不 高但挺实在"的探索,它们可能没上过热搜,但个人认为其确确实实解决过实际问题,希望可以给做相关方向的朋友提供点参考。 在做自动驾驶期间,我主导过研究方向主要包括3D融合感知(Sparse4D系列)、轨迹预测(EDA)、端到端运动规划(Spar ...
一汽或成零跑汽车最大股东,分步收购方案已获批!
自动驾驶之心· 2025-11-10 08:12
来源 | 一汽收购零跑!板上钉钉了? 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 中国经济网从可靠消息处获悉,通过定向增发方式,一汽集团将陆续收购零跑股权,并最终成为其第一大股东。该方案已经获得有关部门批准,并计划于11月17 日对外官宣。对此,零跑汽车官方明确表示,上述消息不实。 此前市场就曾传出零跑汽车将被一汽集团收购,当时也被官方否认。8月20日多家媒体报道称,中国一汽正在筹划入股零跑汽车,成为后者的战略股东。彼时报道 称,知情人士透露,一汽计划初步要约收购10%左右零跑股份,目前该方案已经在一汽内部相关部门流转推进。对此,零跑汽车表示:"不予置评";中国一汽表 示:"这是不实信息。" 更早之前,中国一汽和零跑汽车双方已有所交集。今年3月3日,为加强技术融合、聚集优势资源、共同提升产品竞争力。中国一汽与零跑汽车在长春举行《战略 合作谅解备忘录》签署仪式。彼时,中国一汽董事长、党委书记邱现东,零跑汽车创始人、董事长兼CEO朱江明均出席签署仪式。根据签约内容,双 ...
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 03:36
作者 | 理想TOP2 来源 | 郎咸鹏给理想VLA新画的4个饼以及值得留意的5点 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 关于理想VLA的未来,理想自动驾驶负责人郎咸朋给了4个饼: 短期:现在致力于打造训练的强化闭环,2025年底应该能搭出来,在2025年底2026年初,能看到一些非常好的表现,用户会觉得车真的"活"了,像一个每天在成长的 人。 TOP2评论:一些人喜欢思考琢磨护城河话题,思考方向一般是具备XX点,其他家无法追上。郎的叙事里在一定程度迎合这种偏好。大的趋势来看,基本确定不会只 有一两家掌握自动驾驶,如果认为广义的自动驾驶运营商(包含主机厂)会有好几家的话,那么自然以自己有了XXX,才具备自动驾驶能力的叙事都无法构成严格意 义上的护城河。不过可以说这些点是将来最后只有少数几家可以活下来的主体的立足点,活不下来的主体是在这些点与其他好几个点上综合不行。 郎咸朋目前对VLA的2个倾向性看法: 1. 开车需要具备的智能程度是比较低的。 2. 业务流程 ...
合作了一款高性价比3D扫描仪!
自动驾驶之心· 2025-11-10 03:36
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 最强性价比3D激光扫描仪 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精 ...
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 03:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Lin Liu等 编辑 | 自动驾驶之心 轻舟智航等团队一篇打榜NavSim v2的工作,指出了两个问题: 为解决这些局限,北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了CATG——一种基于Constrained flow matching的规划框架。具体而言,CATG显式建模flow matching过程,这一过程本质上可缓解mode collapse,并支持多种条件信号的灵活引导。我们的核心贡献包括:其一,在flow matching过程中创新性地引入显式约束, 确保生成轨迹符合关键的安全规则和运动学准则;其二,将驾驶激进程度参数化为生成过程中的控制信号,实现对轨迹风格的精准调控。值得注意的是,在NavSim v2 挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖。 论文标题: Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matc ...
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-11-10 03:36
观点:VLA和WA正在逐渐走向融合统一。 前两个月就有人跟我提过,VLA和WA不应该是互相排斥的两个技术路线,未来应该的融合的趋势。所以十月 份我们看到了中科院&引望团队的工作DriveVLA-W0,证明VLA+WM结合是走得通的。小米的陈龙老师也在 小红书上聊到这篇工作: 我个人认为语言预测和未来预测是两种具身都需要的能力!!! 语言 (L) → 抽象推理 • 引入互联网的海量知识。 • 负责 high-level 的逻辑、常识和推理。 世界模型 (WM) → 物理/运动规律 • 通过预测未来的像素或状态,涌现出semantics和depth,速度感知等low-level能力。 一个管"抽象思考",一个管" 物理感知",完全没必要拉踩!VLA + WM 的结合,才是通往更强通用具身智能 (AGI) 的答案 学术界早就对VLA和WM融合做了很多的探索,比较典型的工作有: VLA-RFT:在WM中强化学习微调VLA WorldVLA:视觉+语言+行为,三合一"全能模型" Unified Vision-Language-Action Model:离散化"三模态",实现生成和理解的大一统 DriveVLA-W0:W ...
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 16:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近收到越来越多业内小伙伴和公司的诉求,希望自动驾驶之心能够在企业培训和求职辅导等方向上赋能。 企业培训的需求是多样的,从技术进展的梳理、到发布会方案的解读,以及行业发展的总结。 寻求辅导的同学往往受困于简历不够亮眼,急需一些项目补充和经验传授。 感兴趣的可以添加微信wenyirumo做进一步咨询。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到 端等多个方向。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人群)、 课程开发和原创文章创作。 联系我们 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 现面向全球的自动驾驶领域从业者发出邀请函,自动驾驶之心期望能够和您在技术服务、培训、课程开发与科 研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 ...