Workflow
自动驾驶之心
icon
Search documents
2025年大模型研究热点是什么?
自动驾驶之心· 2025-08-12 23:33
一个认真做内容的社区,一个培养未来领袖的地方。 自动驾驶VLA这么火,想借这个机会了解更多大模型相关的技术知识,有哪些方向可以做,现在热点在哪 里?为此,我们筹备了大模型之心Tech社区,平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预 训练、微调、强化学习)和大模型部署推理优化等等。欢迎对大模型技术感兴趣的小伙伴关注我们~ 如果您想做进一步学习,也欢迎加入我们的大模型之心Tech知识星球。大模型之心Tech知识星球,我们目标是 构建一个国内最大的大模型技术社区,一直在给行业和个人输送各类人才、产业学术信息。目标星球正在快速 搭建相关模块,欢迎加入我们与大模型同行。 ...
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 23:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当 Segment Anything Model(SAM) 以 分割万物 的能力震撼计算机视觉领域时,研究者们很快发现了它的局限: 无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架 。 如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM ,一个将分割范式从 分割任何事物 推向 任何分割 的突破性框架。 在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提 示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。 从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架? SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了 它的「短板」: 与此同时,多模态大语言模型(ML ...
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-12 23:33
作者 | 蔡道清 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1932480841222723066 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 作者阵容挺强的,代码也开源了,值得follow。 Motivation 自动驾驶世界模型需同时满足长时程高分辨率场景生成与实时精准轨迹规划,但现有方法存在明显局限: 因而,本文提出一个 既能生成长时高分辨率视频,又能端到端输出连续轨迹 的统一框架。 Contribution Paper link : https://arxiv.org/pdf/2506.24113 Code link : https://github.com/Kevin-thu/Epona 扩散模型(如Vista):固定长度视频生成(≤15秒),无法支持灵活长时预测(>2分钟)和多模态轨迹控制; GPT式自回归模型(如GAIA-1):可无限延伸,却需把图像 离散成 token ,导致视觉质量下降,且缺乏连 ...
自驾VLA再升级!博世最新IRL-VLA:奖励世界模型打造全新闭环强化学习框架
自动驾驶之心· 2025-08-12 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 清华&博世等团队 最新的工作! IRL-VLA:基于逆向强化学习奖励世界模型的视觉-语言-动作策略闭 环训练框架! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Anqing Jiang等 编辑 | 自动驾驶之心 自动驾驶VLA深入行业视野以来,一直面临两个关键的问题: 1. 现有的VLA架构通常基于开环设置中的模仿学习,倾向于捕捉数据集中的记录行为,性能在一定程度上收到了限制; 总结来说,有三个亮点: | 提出了一种基于逆向强化学习的高效奖励世界模型(RWM); | | --- | | 提出了一种全新的VLA模型,该模型在模仿学习和强化学习两种设置下均能实现卓越的性能 | | 在CVPR2025挑战赛的NAVSIM v2取得了第二的成绩。 | | 非常不错的工作,后续自动驾驶之心也会持续跟踪~ | | 论文链接:https://arx ...
自动驾驶VLA工作汇总(模块化/端到端/推理增强)
自动驾驶之心· 2025-08-12 11:42
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 VLA前置工作:VLM作为解释器 论文标题:DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model 论文链接:https://arxiv.org/abs/2310.01412 主页:https://tonyxuqaq.github.io/projects/DriveGPT4/ 论文标题:TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning 论文链接:https://arxiv.org/abs/2505.12670 主页:https://github.com/AiX-Lab-UWO/TS-VLM 论文标题:DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision- L ...
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 10:37
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当 Segment Anything Model(SAM) 以 分割万物 的能力震撼计算机视觉领域时,研究者们很快发现了它的局限: 无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架 。 如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM ,一个将分割范式从 分割任何事物 推向 任何分割 的突破性框架。 在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提 示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。 从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架? SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了 它的「短板」: 与此同时,多模态大语言模型(ML ...
打算升级下技术社区,跟大家汇报一下......
自动驾驶之心· 2025-08-12 10:37
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 一晃又是一周年了。相比于去年,三周年更是一个里程碑,我们成熟了很多。这一年我们重点 开拓了硬件业务、论文辅导和求职业务,从纯线上教育转行到硬 件教具、线下培训、求职招聘等全栈式服务平台。 伴随着行业的起起伏伏,我们也在不断磨练中成长,行业最大的变化无疑是大模型引发的新一轮智驾方案升级VLM/VLA ,为此我们也专门采访了自动驾驶之心 知识星球的嘉宾→ 聊过十多位大佬后的暴论:自动驾驶还有很多事情没做,转行具身大可不必! 三年期间, 自动驾驶之心知识星球是我们投入最多时间搭建和维护的平台。 截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运营 的小伙伴每天都在复盘,什么样的社区才是大家需要的?我们有没有什么地方没有考虑到?我们一直致力于推动行业发展,成为企业和高校沟通的桥梁。愿景是 让AI与自动驾驶走进每个有需要的同学! 未来还会持续打磨我们的星球,今天也跟大家汇报一下:一是持续邀请学术界和工业界的大佬展开一些深度的圆桌交流,让大家看看自动驾驶的最前沿实际都在 发生什么;二是计划开展一个星友 ...
端到端盛行的当下,轨迹预测这个方向还有研究价值吗?
自动驾驶之心· 2025-08-12 08:05
⼀、 端到端盛行的当下,轨迹预测这个方向还有研究价值吗? 最近有同学后台问我们,现在都是搞端到端了,前面的轨迹预测和规划控制还有啥研究的价值吗?端到端真的 上车的并不多,很多依然沿用分层方案,其中轨迹预测作为后半段的核心算法,依然是许多公司和机构研究的 热点。包括联合轨迹预测和目标轨迹预测。相关的会议和期刊依然有较大量的工作产出。 自动驾驶之心针对目前比较火的基于扩散模型的多智能体轨迹预测方法研究展开了首个1v6小班课!本课题聚 焦于"基于扩散模型的多智能体轨迹预测方法"。多智能体轨迹预测旨在根据多个交互主体的历史轨迹,预测其 未来运动轨迹,这在自动驾驶、智能监控和机器人导航等场景中至关重要。然而,由于人的行为具有不确定性 和多模态性,预测任务十分困难。传统方法通常依赖循环神经网络、卷积网络或图神经网络建模社会交互,而 生成模型(如GAN和CVAE)虽然可以模拟多模态分布,但效率不高。 扩散模型是一类通过逐步去噪实现复杂分布生成的新型模型,近年来在图像生成等领域取得了重大突破。研究 者发现将扩散模型应用于轨迹预测可以显著提升多模态建模能力。例如,LeapfrogDiffusionModel(LED)采 用可训 ...
自驾与AI方向研究生不断扩招,但顶会好像越来越普遍......
自动驾驶之心· 2025-08-12 08:05
1. 自身实力不够过硬 2. 导师精力资源没有倾斜给到 话又说回来,大导精力有限,对所带学生很难平均照顾,只能深入指导他最看重的几个学生。 于是 问题又绕回了自身实力这一块,如何打破循环,快速发一篇高质量论文? 跟随大佬套路,一年两篇论文不是问题! 自动驾驶之心服务大家的论文辅导正式推出了,联手全球 QS排名前100的老师,严格要求交付过程,不盲目招生,以诚信服务学生为主,近3年辅导学员超过 400+名,中稿率高达96%。 辅导全流程 明确需求与方向 → 精准选题与文献综述 → 创新方法设计与实验规划 → 严谨实验与深度分析 → 规范 写作与结构优化 → 多轮修改与反馈迭代 → 投稿选则与意见回复。 签订正规协议,保障你的研究想法、论文内容及个人隐私! 好消息: 2025年国内高校硕博扩招继续推进,自驾与人工智能等工科招生增幅普遍超过30%, 许多同学 成功在这个时候申上了硕/博士。 坏消息: 大厂面试人手2篇A会,未来就业不确定,毕业时间不确定,论文发表不确定,导师意见不 确定,实验结果不确定 ,竞争压力与就业压力与日俱增,时代的黑利也算是吃上了... 以上所有问题的根源说到底就是: 我们能帮你什么? 一直 ...
自动驾驶之心实习生招聘来了!
自动驾驶之心· 2025-08-11 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 大家好,我们是自动驾驶之心/具身智能/大模型之心Tech团队。非常高兴在这里和你相遇,如果你也认同技 术内容可以改变世界,那你可能就是我们在找的人! 我们在做什么? 我们希望通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,更乃至数十万的AI开发者和创 业者。我们致力于为大家带来全网最新最权威的技术信息,团队聚焦在自动驾驶、具身智能、大模型等AI 最前沿的技术领域,涵盖学术论文解读、业内量产方案分析、大模型评测、商业动态、行业招聘、开源项 目等,并通过公众号、社群、视频号、知乎、小红书、B站等平台进行内容分享、粉丝交流及企业联系。 有技术背景,独立解读学术论文,运行部署开源项目和撰写代码demo; 1. 负责大模型/自动驾驶/具身智能等方向学术论文选题、解读和汇总; 2. 负责大模型/自动驾驶/具身智能方向知识星球的搭建; 3. 负责大模型/自动驾驶/具身智能的原创视频制作; 4. 负责原创稿件的撰写策划; 5. 推后管理和数据复盘; 2. 对技术相关的前沿进展和事件有极高的研究热情和分享欲; 3. ...