Workflow
VLM
icon
Search documents
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 14:36
通用类大模型、具身智能、自动驾驶相关方向。 大模型之心Tech . 以下文章来源于大模型之心Tech ,作者自动驾驶之心 锚点2:觉得没有专用的VLM基座,都是用开源模型魔改的。(实际上理想VLA的基座就是自己 做的预训练,VLM的基座用的Qwen) 锚点3:觉得抛弃之前验证成熟的方法不是一个好举措。 正文内容是自动驾驶之心团队面向10位自动驾驶从业者的4个提问的回复,四个问题分别是: 1.当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克? 2.如何看待新兴的技术方向:VLA/VLM、扩散模型、闭环仿真、强化学习、端到端自动驾驶、 世界模型等等 3.未来自动驾驶技术还有哪些值得探索的新方向? 4.深耕自动驾驶 or 投身具身智能,怎么选? 关于VLA大体有三派 1.不看好派 锚点1:觉得E2E都没发挥出真正的优势,实测效果不如PPT,VLA就更是PPT了。 2.看好派 锚点1:认为VLM/VLA本质是用大模型的发话能力帮助车像人一样理解场景,过去那种出现一 种场景,对应一种策略的思路开发是没有止境的。 锚点2:肯定是下一代重点落地发力方向,reasoning能力可以解释模型黑盒,是很大安全保 ...
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 08:43
为应对这一挑战,已有方法尝试用跨模态安全微调、系统提示词设计或外部判别模块来加固模型防线。然而,这些方法普遍存在训练成本高、泛化能力差、甚至 误判正常输入的风险。 模型其实 "心里有数":越狱时隐藏状态在报警 来自香港中文大学 MMLab 与淘天集团未来生活实验室的研究者提出了 HiddenDetect—— 种无需训练的越狱检测新方法。核心作者包括姜一雷,谭映水,高欣颜, 岳翔宇。 他们的核心发现是:即使 LVLMs 表面上被越狱、生成了不当内容,其隐藏状态中依然保留着拒绝的信号。特别是在模型的中间层,这些信号往往比最终输出更 早、更敏感地 "察觉" 到潜在风险。更有趣的是,文字输入和图像输入会激活完全不同的 "安全通路",也就是说,LVLMs 对不同模态的 "危险感知" 机制是有区分 的。 论文已被 ACL2025 main conference 收录。 多模态大模型崛起,安全问题紧随其后 近年来,大语言模型(LLMs)的突破式进展,催生了视觉语言大模型(LVLMs)的快速兴起,代表作如 GPT-4V、LLaVA 等。通过将图像与文本深度融合, LVLMs 在图文问答、视觉推理等任务中大放异彩。但与此同时, ...
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 08:42
本文只做学术分享,如有侵权,联系删文 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Liuyi Wang等 编辑丨具身智能之心 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 写在前面&出发点 近年来,视觉-语言导航(VLN)领域的进展颇具前景,但该领域对机器人运动和控制的理想化假设,并未 反映出物理具身部署所面临的挑战。为弥合这一差距推出了VLN-PE——一个具备物理真实性的VLN平台, 可支持人形、四足和轮式机器人。首次在物理机器人环境中,通过不同技术流程,对多种以ego为中心的 VLN方法进行了系统性评估,包括用于单步离散动作预测的分类模型、用于密集路径点预测的扩散模型, 以及与路径规划相结合的无训练、基于地图的大型语言模型(LLM)。研究结果显示,由于机器人观测空 间有限、环境光照变化,以及碰撞和跌倒等物理挑战,模型性能出现了显著下降。这也暴露了足式机器人 在复杂环境中的运动限制。VLN-PE具有高度的可扩展性,能够无缝集成MP3D之外的新场景,从而实现更 全面的VLN评估。尽管 ...
港中文最新!ReAL-AD:迈向类人推理的端到端自动驾驶,轨迹性能提升30%(ICCV'25)
自动驾驶之心· 2025-07-20 08:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 上海科技大学&港中文ICCV'25中稿的最新工作— ReAL-AD! 迈向类人推理的端到端自动驾驶。 如果您有相关工作需要分享,请在 文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Yuhang Lu等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 端到端自动驾驶作为一种统一感知、预测和规划的方法,能够在统一框架内减少信息损失并提高适应性, 近年来备受关注。然而,现有方法通常依赖于固定且稀疏的轨迹监督,这限制了它们捕捉人类驾驶员自然 采用的层次化推理过程的能力。为了弥补这一差距,上海科技大学和港中文的团队提出了ReAL-AD,这是 一种推理增强学习框架,基于三层人类认知模型(驾驶策略、驾驶决策和驾驶操作)来构建自动驾驶中的 决策过程,并引入视觉-语言模型(VLMs)以增强环境感知和结构化推理能力。具体而言,我们引入了: (1) 策略推理Injecto ...
Vishay Intertechnology RGB LED in PLCC-6 Package Provides Independent Control of Red, Green, and Blue Chips for Wide Color Range
Globenewswire· 2025-07-16 15:00
Automotive Grade Device Delivers Luminous Intensity to 2800 mcd, Enables Every Color Within the Gamut Triangle Inside the CIE 1931 Color SpaceMALVERN, Pa., July 16, 2025 (GLOBE NEWSWIRE) -- Vishay Intertechnology, Inc. (NYSE: VSH) today introduced a new tricolor LED that provides luminous intensity to 2800 mcd at 20 mA for interior automotive lighting, RGB displays, and backlighting. Featuring separate anode and cathode connections for the red, green, and blue LED chips inside its compact 3.5 mm by 2.8 mm b ...
自动驾驶圆桌论坛 | 聊聊自动驾驶上半年都发生了啥?
自动驾驶之心· 2025-07-14 11:30
2025上半年已经过去了,上半年自动驾驶发展的怎么样?业内落地量产在做什么?学术界在关心什么技 术方向?转行具身还是深耕智驾?全都是问题! 为此,自动驾驶之心采访了国内外数十位学术界和工业界的诸位大佬,和他们一起聊聊对这些问题的看 法,希望对大家有帮助~ 1. 当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克? 2. 如何看待新兴的技术方向:VLA/VLM、扩散模型、闭环仿真、强化学习、端到端自动驾驶、世界模 型等等 3. 未来自动驾驶技术还有哪些值得探索的新方向? 4. 深耕自动驾驶 or 投身具身智能,怎么选? 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 SJTU 张志鹏 BEV,Occ, E2E, VLA, 这几个词是从2022年到2025年自动驾驶中热词的一个变迁。 BEV和Occ的引入某种程度上都是因为特斯拉推崇纯视觉方案,然后借鉴Lidar和机器人的一些建模方式 去表征整个驾驶环境。近期又出现了一些用3DGS建模3D环境的方式。但是整体来看,自动驾驶中感知 的场景表征的方式还是比较成熟了,各家厂商也验证了这种模式在实际中是走 ...
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 06:20
大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案。那么下 一代大模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬件适配、知 识蒸馏与量化加速、高效微调大模型等方向! 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人带、易踩坑、 不知如何写稿、投稿的难题。 ⼀、课程介绍⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能 已成为当前人工智能研究的核心议题。本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计 算、知识动态扩展和复杂推理三大方向的关键技术。 课程将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化 方面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协 作和多模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但 ...
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 12:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 1. 自我介绍 自我介绍环节主要是让双方进入快速面试状态,这块没什么特别注意的,别磕巴就好,主要聊聊个人基本信息、教育背景、工作经历和技 能特长等等。 2. 项目面 因为我简历上面写一个RAG项目,所以面试官主要围绕RAG进行提问: 最近面试了理想汽车大模型岗位,被面试官强度拉满了...不仅问到了很多大模型的基础,从通用大模型到大模型微调,再到自动驾驶多模 态大模型全方面被拷打,尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的,这块的经验积累 还是比较丰富。 本文章主要记录了本小菜研找实习的坎坷历程,欢迎大佬们给建议!!! 4. ... 通用大模型是面试的重点,面试官比较关心有没有横向对比近一年开源的SOTA大模型,这些模型在不同任务上有什么优劣势,以及大模型 微调比较细致的思考,这块涉及: 3. 技术问题回答 3.1 简单介绍一下大模型存在哪些问题?有什么好的解决方法? 3.2 如何看待自动驾驶大模型?以及如何落地自动驾驶大模型? 这块聊了很多自动驾驶大模型的工作,像经典 ...
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 12:00
作者 | qian 编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 视觉大语言模型 综述汇总 基础理论 原文链接: https://zhuanlan.zhihu.com/p/1922228114404143784 预训练 智能交通和自动驾驶中的 LLM:https://github.com/ge25nab/Awesome-VLM-AD-ITS AIGC 和 LLM:https://github.com/coderonion/awesome-llm-and-aigc 视觉语言模型综述:https://github.com/jingyi0000/VLM_survey 用于 CLIP 等视觉语言模型的出色提示 / 适配器学习方法:https://github.com/zhengli97/Awesome-Prompt- Adapter-Learning-for-VLMs LLM/VLM 推理论文列表,并附有代码:https://github.com/D ...
中国AI六小虎「智谱」,传同时准备A股、香港上市,A股IPO的概率可能高些
Sou Hu Cai Jing· 2025-07-12 07:26
智谱是数家试图在全球与OpenAI竞争的中国初创公司之一,据此前提交中国证监会的备案文件,公司 最初准备在内地上市。 智谱,致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司合作研发了中英双语千亿 级超大规模预训练模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B。 同时,团队还打造了AIGC模型及产品矩阵,包括AI提效助手智谱清言(chatglm.cn)、高效率代码模型 CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等。公司践行Model as a Service(MaaS)的市 场理念,推出大模型MaaS开放平台(https://open.bigmodel.cn/),打造高效率、通用化的"模型即服务"AI 开发新范式。通过认知大模型链接物理世界的亿级用户,智谱基于完整的模型生态和全流程技术支持, 为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。 来源:瑞恩资本RyanbenCapital 中国「AI六小虎」之一的北京智谱华章科技股份有限公司(简称"智谱")据报考虑将其IPO计划的地点由 内地改为香港,料将为香港新股热潮 ...