Multimodal Large Model

Search documents
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 00:03
VLM & VLA:毋庸置疑,多模态大模型和VLA是今年最火的赛道,这两个月也有很多工作源源不断推出。 对于自动驾驶VLA来说,Action定义在自车轨迹这一层级,主流范式遵循『预训练-微调-强化学习』三阶段 的范式,通用自动驾驶VLM基础模型仍然缺失(自动驾驶视觉数据和大模型对齐),期待工业界持续的发 力; 闭环仿真 & 世界模型:基于世界模型和3DGS的闭环仿真方向也是另一大热点,无论是基于重建的方法还是 基于生成的方法,都可以应用于闭环仿真。受限于实车开环测试的局限性,闭环仿真也是这两年自动驾驶的 刚需。一方面是降成本,另一方面是模型迭代效率。据自动驾驶之心了解,业内多家公司都在攻坚闭环仿 真,但做的好的寥寥无几,当前的效果只能说是在『能用』的阶段,并且工业界聚焦在更细力度上的性能, 不止是整体的重建效果,比如车道线、待转区、红绿灯、车灯、行人步态等等会影响自车行为的因素都是实 际需要考虑的; OCC和检测:OCC和检测还是有很多工作中稿的,但不在局限于『刷性能』,我们看到了很多细分方向的工 作,OCC和世界模型、开集目标检测、检测+Mamba、OCC和Gaussion等等,这些相对成熟的方向正在深挖 ...
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 12:56
自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。如果您的方向是 具身智能、视觉大语言模型、世界模型、端到端自动驾驶、扩散模型、车道线检测、2D/3D目标跟踪、 2D/3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处 理、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控 制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流 等,欢迎加入自动驾驶之心大 家庭,一起讨论交流! 添加小助理微信加群 备注公司/学校+昵称+研究方向 ...
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 11:59
在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。 近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队,提出了 " OWMM-Agent " 具身智能体——首个专为开放世界移动操作 (OWMM)设计的多模态智能体 (VLM Agent) 架构,首次实现了全局场景理解、机器人状态跟踪和多模态动作生成的统一建模。 同时该工作通过仿真器合成智能体轨迹数据,微调了针对该任务的多模态大模型 OWMM-VLM,在真实环境测试下,该模型零样本单步动作预测准确率达 90%。 论文链接:https://arxiv.org/pdf/2506.04217 Github 主页:https://github.com/HHYHRHY/OWMM-Agent 一、问题背景介绍:开放语义下的移动抓取任务 传统移动抓取机器人在家庭场景处理 "清理餐桌并将水果放回碗中" 这类开放指令时,往往需要依赖预先构建的场景 3D 重建或者语义地图,不仅耗时且 难以应对动态环境。OWMM 任务的核心难点在于: 二、OWMM-Agent:用 VLM 重构机器人 "大脑 ...
2025年全球多模态大模型行业发展现状 AI服务器和算力发展推动市场爆发式增长【组图】
Qian Zhan Wang· 2025-04-22 07:44
行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 本文核心数据:市场规模;算力;排名; 全球多模态大模型行业发展历程 全球大模型产业的发展经历了早期探索期(1956年-2005年),在这一阶段,人工智能学科诞生,神经网络模 型开始发展。随后进入快速成长期(2006年-2019年),深度学习概念被重新引入,Transformer等模型推动了 行业进步。2020年至2022年为大模型兴起期,参数规模迅速扩大,2022年更被视为大模型元年。从2023年 开始,大模型进入广泛应用期,其在各领域的深度应用得到不断拓展。这一过程并非严格分期,而是体现 了大模型技术发展的连续性和阶段性。 转自:前瞻产业研究院 全球人工智能服务器现状 由于大模型对计算能力和数据的高需求,其所需要的服务器设施将在人工智能基础设施市场中占据越来越 大的份额。ID ...