Large Model

Search documents
传统的感知被嫌弃,VLA逐渐成为新秀......
自动驾驶之心· 2025-07-25 08:17
端到端自动驾驶作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方 向。这两年有非常多的工作如雨后春笋般涌现,以PLUTO为代表的二段式端到端思考如何用模型实现自车 规划;以UniAD为代表的基于感知的一段式端到端不断发展进步;以OccWorld为代表的基于世界模型的一 段式端到端开创了新流派;以DiffusionDrive为代表的基于扩散模型的一段式端到端开创了多模轨迹的新时 代;随后基于VLM的一系列方法不断进化出自动驾驶VLA方向,开启了大模型时代下的端到端; 而传统的BEV感知、车道线、Occupancy等工作相对较少出现在顶会了,最近也有很多同学陆续来咨询峰 哥,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的七七八八了,审稿人会打高分吗? 说到传统的感知、规划等任务,工业界都还在继续优化方案!但学术界基本都慢慢转向大模型与VLA了, 这个领域还有很多工作可以做的子领域...... 但新的领域往往对初学者是陌生的,只有极少数科研能力强的人才有机会独立产出。如果您真的需要选择 论文研究方向,我们建议向大模型、VLA靠拢。 如果您基础真的不好,也可以看看我们为大家准备好 ...
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 12:56
自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。如果您的方向是 具身智能、视觉大语言模型、世界模型、端到端自动驾驶、扩散模型、车道线检测、2D/3D目标跟踪、 2D/3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处 理、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控 制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流 等,欢迎加入自动驾驶之心大 家庭,一起讨论交流! 添加小助理微信加群 备注公司/学校+昵称+研究方向 ...
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 11:59
在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。 近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队,提出了 " OWMM-Agent " 具身智能体——首个专为开放世界移动操作 (OWMM)设计的多模态智能体 (VLM Agent) 架构,首次实现了全局场景理解、机器人状态跟踪和多模态动作生成的统一建模。 同时该工作通过仿真器合成智能体轨迹数据,微调了针对该任务的多模态大模型 OWMM-VLM,在真实环境测试下,该模型零样本单步动作预测准确率达 90%。 论文链接:https://arxiv.org/pdf/2506.04217 Github 主页:https://github.com/HHYHRHY/OWMM-Agent 一、问题背景介绍:开放语义下的移动抓取任务 传统移动抓取机器人在家庭场景处理 "清理餐桌并将水果放回碗中" 这类开放指令时,往往需要依赖预先构建的场景 3D 重建或者语义地图,不仅耗时且 难以应对动态环境。OWMM 任务的核心难点在于: 二、OWMM-Agent:用 VLM 重构机器人 "大脑 ...
IDC:预计到2029年 中国AI数字人市场规模将达到250.5亿元
智通财经网· 2025-06-13 06:08
由于当前市场2D数字人赛道落地迅速,本次研究报告也单独切分了2D数字人市场份额——2024 年市场规模达 28.9 亿元人民币,相比 2023 年增长 101.2%。该细分市场的主要玩家包括华为云、百度、小冰、商汤科技等。 智通财经APP获悉,IDC于近日发布了《中国2024年中国AI数字人市场份额》报告。报告显示,IDC数据显示, 2024年中国AI数字人市场规模约41.2亿元人民币,相比 2023 年增长 85.3%;预计到2029年,市场规模将达到 250.5亿元人民币,2024-2029年CAGR达43.5%。市场主要参与厂商包括百度(09888)、小冰、商汤科技、追一 科技等。 IDC中国人工智能研究经理程荫表示,在生成式AI和大模型技术的双重驱动下,AI数字人赛道迎来突破性发 展,技术架构全面升级——头部厂商依托语义和垂直领域大模型,构建起新一代数字人技术栈,使特定场景的 交互体验实现质的飞跃。其次,多模态能力持续突破,表情生成、动作捕捉、语音合成、视觉理解等关键技术 模块通过超大规模预训练,推动数字人在形象塑造、智能交互和自主决策等方面达到新高度。最后,应用生态 加速普及——随着技术平民化进程加 ...
港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵
晚点LatePost· 2025-05-23 07:41
理解智能,并不只是研究者和工程师的课题。 文 丨 程曼祺 刘倩 大模型看起来已具备智能的形式:能陪你聊天,步步思考,做高等数学题,高效地写代码……这对很 多人来说已经足够——足以带来更多研究成果、产品机会、巨额投资和股价攀升。 而马毅是那类觉得不够的人,他于无声处开始提问:智能的本质是什么? 这个问题的题面简单,答案却尚无共识。马毅认为,对智能的理解不应过于表面和短期,而应回到源 头厘清智能诞生和发展的历史。 自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研 院、上海科技大学、伯克利大学和香港大学,现担任香港大学计算与数据科学学院院长。他和团队提 出的压缩感知技术,到现在还在影响计算机视觉中模式识别领域的发展。 在浩瀚的宇宙里,除了我们正在一手制造却尚不完全可解释的 "机器智能" ,人类所见识过的智能只有 一个大样本:生命。 马毅认为,智能的本质是 "学习"——生命就是智能的载体,从 DNA 出现,到神经系统诞生和寒武纪 物种大爆发,再到人类的语言与数学的诞生,智能有不同的表现形式;但不变的是,智能都是在学习 外部世界的知识与规律,从而进行预测,使知识可以为我 ...
2025年全球多模态大模型行业发展现状 AI服务器和算力发展推动市场爆发式增长【组图】
Qian Zhan Wang· 2025-04-22 07:44
行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 本文核心数据:市场规模;算力;排名; 全球多模态大模型行业发展历程 全球大模型产业的发展经历了早期探索期(1956年-2005年),在这一阶段,人工智能学科诞生,神经网络模 型开始发展。随后进入快速成长期(2006年-2019年),深度学习概念被重新引入,Transformer等模型推动了 行业进步。2020年至2022年为大模型兴起期,参数规模迅速扩大,2022年更被视为大模型元年。从2023年 开始,大模型进入广泛应用期,其在各领域的深度应用得到不断拓展。这一过程并非严格分期,而是体现 了大模型技术发展的连续性和阶段性。 转自:前瞻产业研究院 全球人工智能服务器现状 由于大模型对计算能力和数据的高需求,其所需要的服务器设施将在人工智能基础设施市场中占据越来越 大的份额。ID ...
自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构
量子位· 2025-03-13 03:28
SCoT团队 投稿 量子位 | 公众号 QbitAI 不怕推理模型简单问题过度思考了,能 动态调整CoT的新推理范式SCoT来了! SCoT,即自 结构化推理链 (Self-structured Chain of Thought ) 。 它通过 将推理过程分解为最小语义原子步骤 ,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。 另外,为了激发推理能力,研究人员还提出了 AtomThink ,这是一个包含数据构造、训练、推理和评估的全过程框架, 用来提升多模态大 模型在复杂推理任务上的表现 。 实验中,SCoT使模型能根据问题复杂度自动调整推理链长度,复杂问题的推理步骤更长。 在多个数据集上,AtomThink框架显著提升了基线模型的准确率,数据利用效率和推理效率也表现出显著优势。 并且,原子能力评估揭示了多模态模型在不同推理能力上的分布特征,为理解多模态推理模式提供了新视角。 这项研究由来自中山大学、香港科技大学、上海交通大学、香港大学、华为诺亚方舟实验室的研究人员联合提出,以下是更多细节。 SCoT、AtomThink长啥样? 当前,结构化和非结构化CoT面临一定的挑战 ...