视觉语言行动(VLA)模型

Search documents
国内外车企智驾方案对比
2025-06-23 02:09
国内外车企智驾方案对比 20250622 摘要 多家车企加速 L3 级智能驾驶研发,特斯拉在北美已实现完全一体式端到 端方案,国内仍采用模块化方案。华为预计下半年推送一体式端到端方 案,采用多传感器融合路线,比特斯拉更复杂。 下一代视觉语言行动(VLA)模型成为发展重点,参数量预计在 100 亿 以内,旨在通过图像数据直接输出动作,并加入大语言模型解释复杂场 景,目前国内车企多处于研发阶段。 特斯拉采用纯视觉方案,依赖 8 个摄像头实现智能辅助驾驶。其他车企 如华为、Momenta 和小鹏采用多传感器融合路线,但长期震动可能导 致激光雷达精度下降,需要算法补偿。 理想汽车结合 VLA 与端到端模型,使用两片 ORVIS 芯片分别处理场景 理解与复杂情况反馈,但 VRM 模型推理速度较慢。小鹏汽车通过改进 阿里千问的大语言模型进行预训练和后训练。 多数车企放弃高清地图,转而采购精度介于高清地图和传统导航地图之 间的地图。特斯拉领先世界生成技术,模拟多视角镜头并主动标注语义 信息,用于后续训练。 各智驾企业具体技术方案有哪些特点? 特斯拉目前领先,实现完全一体式纯视觉的自动驾驶,但国内采用模块化以适 应交通规则。 ...
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 14:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤 其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自 动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量 产。 随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。 所以哪些高质量工作现在应该格外关注?趋势在往什么方向发展?量产应用究竟如何?全都是值得每一位前沿从 业者思考~ 为此,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表时间排 序,其中不乏全球顶尖高校团队和工业界研究团队的工作。 并在文末做了一些对当下工作的观点整理,感兴趣 的小伙伴不要错过呦~ 标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adapt ...