Workflow
Scenes
icon
Search documents
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 11:34
论文标题 : Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving 论文作者: Hao Jiang, Chuan Hu, Yukang Shi, Yuan He, Ke Wang, Xi Zhang, Zhipeng Zhang 论文链接: https://www.arxiv.org/pdf/2506.05442 作者 | Hao Jiang 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『端到端自动驾驶』技术交流群 本文只做学术分享,如有侵权,联系删文 引言 最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中,基于 视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。 现有的VLM训练范式严重依赖带有自由格式的文本标注数据集 ,如图1(a)所示。虽然这些描述 能够 捕捉丰富的语义信息,但 由于两种结构不同但是表达相近的句子会增加模型在学习任 ...
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶技术日渐火热,各类开发者数据集层出不穷。"自动驾驶之心"已整理收录了100多个优质自动 驾驶数据集,为初学者和工程师提供了丰富素材。本文仅选取其中5个数据集进行介绍,覆盖了从感知 (目标检测、分割)到视觉里程计等多种任务场景。无论你是入门新手还是科研工程师,这5个数据集 都值得关注,更多资源欢迎加入社群获取完整资料! 不过,本文介绍的只是"自动驾驶之心"社群中海量资源的一小部分。想要获取全部100+数据集的详细信 息,以及与志同道合的业内同仁实时交流,请加入"自动驾驶之心"知识星球并加入社群! 1. KITTI 数据集 KITTI 数据集是自动驾驶领域最经典、使用最广泛的基准数据集之一。它通过在卡尔斯鲁厄街道环境中 搭载高精度传感器(如双目彩色/灰度相机、Velodyne 3D 激光雷达、GPS/IMU 等)采集数据。数据集中 包含了立体视觉、光流、视觉里程计、3D 目标检测和跟踪等多种感知任务的标注(如图像序列和 3D 物 体轨迹)。丰富的城市、高速和乡村场景让 KITTI 成为评测车载视觉算法性能 ...
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 14:06
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 评估协议的关键局限性 三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性 (该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推 理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语 言连接起来。因此,本文专注于利用 3DGS 进行视觉-语言场景理解。 语言高斯溅射(Language Gaussian Splatting, LGS)最相关的方法可分为三类。前两类方法首先使用视觉-语言基 础模型(例如 CLIP)从所有训练图像中提取二维特征。第一类随后执行基于梯度的单场景优化,将特征向量分 配给每个三维高斯基元(primitive),并优化它们,使其渲染 ...
AI陪伴Top 1应用上线视频生成!图片人物能说话唱歌,多轮对话场景依然稳定
量子位· 2025-06-03 06:21
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 这项新功能名叫 AvatarFX ,主要用于图生视频,更具体说就是让静态图片中的人物"开口 说话"。 AvatarFX一个月之前面向订阅用户开放,现在所有用户都可以用了,同时c.ai也上新了多项 其他AI创作功能。 c.ai上新多项AI创作功能 在最新的公告中,c.ai宣布上新或即将上新一系列新功能,其中不少与AI创作相关。 首先就是 AvatarFX ,它主打图片动画化,而非从零开始的文本生成,可以让图片中的人物 说话、唱歌并和用户互动,也可以为角色生成自我介绍视频,同时支持宠物等非人类面孔。 c.ai介绍,AvatarFX基于DiT架构,自称达到了SOTA水准,技术亮点在于 高保真度和强时 间一致性 。 据介绍,即便面对多角色、长序列或多轮对话的复杂场景,AvatarFX生成的视频依然能够保 持稳定性。 AI陪伴应用的Top 1—— Character.ai (c.ai),也开始做起视频生成了。 在c.ai平台中,可以让AI扮演各种角色陪你对话,现在有了视频生成,这些角色可以动起来 了。 c.ai展示了用户的创作成果,还自嘲称之为"内部运作模式可视化 ...