Workflow
Multimodal Large Model
icon
Search documents
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 12:56
自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。如果您的方向是 具身智能、视觉大语言模型、世界模型、端到端自动驾驶、扩散模型、车道线检测、2D/3D目标跟踪、 2D/3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处 理、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控 制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流 等,欢迎加入自动驾驶之心大 家庭,一起讨论交流! 添加小助理微信加群 备注公司/学校+昵称+研究方向 ...
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 11:59
在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。 近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队,提出了 " OWMM-Agent " 具身智能体——首个专为开放世界移动操作 (OWMM)设计的多模态智能体 (VLM Agent) 架构,首次实现了全局场景理解、机器人状态跟踪和多模态动作生成的统一建模。 同时该工作通过仿真器合成智能体轨迹数据,微调了针对该任务的多模态大模型 OWMM-VLM,在真实环境测试下,该模型零样本单步动作预测准确率达 90%。 论文链接:https://arxiv.org/pdf/2506.04217 Github 主页:https://github.com/HHYHRHY/OWMM-Agent 一、问题背景介绍:开放语义下的移动抓取任务 传统移动抓取机器人在家庭场景处理 "清理餐桌并将水果放回碗中" 这类开放指令时,往往需要依赖预先构建的场景 3D 重建或者语义地图,不仅耗时且 难以应对动态环境。OWMM 任务的核心难点在于: 二、OWMM-Agent:用 VLM 重构机器人 "大脑 ...
2025年全球多模态大模型行业发展现状 AI服务器和算力发展推动市场爆发式增长【组图】
Qian Zhan Wang· 2025-04-22 07:44
行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 本文核心数据:市场规模;算力;排名; 全球多模态大模型行业发展历程 全球大模型产业的发展经历了早期探索期(1956年-2005年),在这一阶段,人工智能学科诞生,神经网络模 型开始发展。随后进入快速成长期(2006年-2019年),深度学习概念被重新引入,Transformer等模型推动了 行业进步。2020年至2022年为大模型兴起期,参数规模迅速扩大,2022年更被视为大模型元年。从2023年 开始,大模型进入广泛应用期,其在各领域的深度应用得到不断拓展。这一过程并非严格分期,而是体现 了大模型技术发展的连续性和阶段性。 转自:前瞻产业研究院 全球人工智能服务器现状 由于大模型对计算能力和数据的高需求,其所需要的服务器设施将在人工智能基础设施市场中占据越来越 大的份额。ID ...