Workflow
世界模型
icon
Search documents
空间智能是未来10年AI发展的新前沿
Guan Cha Zhe Wang· 2026-01-04 01:34
艾伦·图灵(1912-1954)英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家,被誉为 计算机科学与人工智能之父。 自从进入这一领域,对视觉与空间智能的探索始终是指引我前行的"北极星"。正因如此,我投入多年时 间构建了ImageNet——第一个大规模视觉学习与评测数据集。它与神经网络算法、以图形处理器 (GPUs)为代表的现代计算能力一道,构成了现代人工智能诞生的三大关键要素。也正因如此,过去 十年来,我在斯坦福大学的实验室持续将计算机视觉与机器人学习相结合。更因为如此,一年多以前, 我与联合创始人贾斯丁·约翰逊(Justin Johnson)、克里斯托弗·拉斯纳(Christoph Lassner)、本·米尔登 霍尔(Ben Mildenhall)一同创立了世界实验室(World Labs)——希望第一次真正、完整地把这种可能 性变为现实。 在这篇文章中,我将尝试解释什么是空间智能,它为何重要,以及我们正在如何构建能够释放这一能力 的世界模型。这种进展,将深刻重塑创造力、具身智能,以及人类社会的整体进步路径。 【文/李飞飞,翻译/鲸生】 1950年,当计算还主要停留在自动算术和简单逻辑层面时 ...
为什么蔚来会押注世界模型?
自动驾驶之心· 2026-01-04 01:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天蔚来NWM2.0集中宣发,效果 号称 还不错。根据之前蔚来公开的信息,世界模型可能会有惊喜。任少卿认为智能驾驶真正的上限在世界模型, 即以视频为 核心,通过跨模态的互相预测和重建,让系统学习时空和物理规律 ,让机器能像人一样理解环境。 世界模型解决的是 时空认知 ,语言模型解决的是 概念认知 。语言模型低带宽和稀疏性 无法真正有效的建模真实世界的四维时空(时间+空间)。 世界模型的认知 包含两个层面: 但世界模型的定义仍然很模糊,生成 = 世界模型? 生成 + 重建 = 世界模型。 对于新入行的同学来说,总是搞不明白。 不少同学跟柱哥吐槽,相当多的时间"浪费"在踩 坑上了。 想要搞懂世界模型,完成数据生成、闭环仿真等后续任务,对于初学者来说是非常困难的。有的同学甚至踩了半年坑都无法真的入门,更不用说做改进。 为此自动 驾驶之心联合工业界算法专家,从原理到实战带大家搞懂自动驾驶世界模型领域! 正式开课!添加助理咨询课程~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF- ...
超越DriveVLA-W0!DriveLaW:世界模型表征一统生成与规划(华科&小米)
自动驾驶之心· 2026-01-04 01:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Tianze Xia等 编辑 | 自动驾驶之心 近年来,得益于感知(如 BEVFormer, MapTR, BEVDet 等)和规划(如 UniAD, VAD, DiffusionDrive, ReCogDrive 等)的突破性进展,自动驾驶技术取得了长足进步。 然而,现有系统在面对 长尾场景 时依然显得脆弱,严重制约了闭环驾驶的性能。为了解决这一难题,近期大量研究工作尝试运用 世界模型(World Models) ,旨在 通过预测驾驶场景的未来演变来增强系统的泛化性与鲁棒性来解决长尾问题。 目前,世界模型在自动驾驶中的应用已百花齐放:一类致力于合成下游任务数据以应对罕见场景(如 VISTA, GAIA, MagicDrive, DriveDreamer, DrivingDiffusion);另 一类利用模拟环境进行策略学习(如 RAD, ReSim, OmniNWM);还有一类则提供未来的视觉预测作为辅助监督信号(如 DriveVLA, Dr ...
LeCun在Meta还有论文:JEPA物理规划的「终极指南」
机器之心· 2026-01-03 04:13
编辑|Panda 长期以来,AI 领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。 传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海量的样本才能学到一点皮毛,这在奖励信号稀疏的现实环境中简直是灾难。 为了打破这一僵局,研究者们提出了「 世界模型 」这一概念,即让智能体在脑海中构建一个物理模拟器,通过预测未来状态来进行演练。 近年来,虽然能够生成精美像素画面的生成式模型层出不穷,但对于物理规划而言,沉溺于无关紧要的细节(如背景烟雾的流动)往往是低效的。真正的挑战在 于,如何在错综复杂的原始视觉输入中提取抽象精髓。 这便引出了本研究的主角: JEPA-WM(联合嵌入预测世界模型) 。 从名字也能看出来,这个模型与 Yann LeCun 的 JEPA(联合嵌入预测架构) 紧密相关。事实上也确实如此,并且 Yann LeCun 本人也是该论文的作者之一。更有 意思的是,在这篇论文中,Yann LeCun 的所属机构为 Meta FAIR。不知道这是不是他在 Meta 的最后一篇论文? | Adrien Bardes | | --- | | Met ...
蔡鑫莹:在数据浪潮与实像悬浮间构筑长沙创新高地 | 代表委员风采
Xin Lang Cai Jing· 2026-01-01 23:53
稿源:长沙晚报 2026-01-02 07:19 蔡鑫莹,市政协委员、湖南云畅网络科技有限公司董事长,市政协委员、湖南云畅网络科技有限公司董事长 长沙晚报全媒体记者 蒋志斌 在长沙奔腾不息的创新脉搏中,蔡鑫莹始终是一位独特的"双面"观察者与建设者。作为市政协委员与网络科技 公司的掌舵人,他一面深耕于数字经济的产业实践,感知技术最细微的脉动;一面立于参政议政的广阔平台, 为长沙建设全球研发中心城市建言献策。 蔡鑫莹的建言始终散发着浓厚的"未来感"与"落地性"。当人工智能的浪潮初显澎湃之势时,他的目光已越过喧 嚣,牢牢锁定其赖以成长的基石——数据要素。通过深入产业腹地的扎实调研,他率先系统提出:"长沙不仅要 参与人工智能的应用竞赛,更应抢占其'上游燃料'的供给端。我们丰富的应用场景、高素质的人才储备和已具 雏形的数据标注产业,正是打造高质量'数据燃料'基地的独特优势。"这一洞见并非停留在纸面,其核心思路与 省市后续聚焦数据要素与具身智能发展的产业规划高度契合,更在实践中推动了相关产业集聚区的萌芽与发 展。 蔡鑫莹的视野并不局限于单一技术赛道。在科技与文化的十字路口,他致力发现融合创新的璀璨光芒。今年, 他将思考锚 ...
践行者说|胡鲁辉:将世界模型注入身体,定义具身智能新生产力
机器人大讲堂· 2026-01-01 04:06
12月18-19日,第六届中国机器人行业年会在杭州举行。这场汇聚了超2000名行业专家企业家及从 业者的年度盛会,已成为解码机器人技术与商业未来的高端对话场。 机器人大讲堂特现推出系列深度报道,梳理大会现场行业顶尖专家与知名企业的核心洞见,探寻中国 机器人在具身智能时代的破局之路。 智澄AI是一家专注于通用人工智能与机器人技术的具身智能通用机器人前沿科技企业。公司汇聚了来自 Meta、微软、亚马逊、华为等全球名企和清华、CMU等顶尖名校的精英团队。 胡鲁辉首先以简明的脉络回顾了人工智能的加速演进。 "真正的人工智能其实也没有多久",从 2012 年的 AlexNet 到 AlphaGo ,再到基于 Transformer 的 ChatGPT , 迭代速度已从以年为单位缩短至以 季度 甚 至 月 计。他 认为 , AI 1.0 时代的核心是垂直应用,而当前我们正身处 AI 2.0 时代,其本质区别在于通用 和泛化。"我们公司这一次做的事情,就是怎么把通用人工智能从数字空间移到物理世界中来。" 本期聚焦 【胡鲁辉】世界模型激活具身智能 胡鲁辉 智澄 AI 创始人 & CEO 2 025 年,当具身智能的竞赛从技术 ...
为什么蔚来会押注世界模型?
自动驾驶之心· 2025-12-31 06:27
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天蔚来NWM2.0集中宣发,效果 号称 还不错。根据之前蔚来公开的信息,世界模型可能会有惊喜。任少卿认为智能驾驶真正的上限在世界模型, 即以视频为 核心,通过跨模态的互相预测和重建,让系统学习时空和物理规律 ,让机器能像人一样理解环境。 世界模型解决的是 时空认知 ,语言模型解决的是 概念认知 。语言模型低带宽和稀疏性 无法真正有效的建模真实世界的四维时空(时间+空间)。 世界模型的认知 包含两个层面: 世界模型不是 "语言加法",而是要建立一套高带宽的认知系统,所以直接在视频端建立能力,而不是先转成语言。所以我们看到一些AI巨头在做通用世界模型,李 飞飞Marble、 yann lecun的 V-JEPA 2、DeepMind发布Genie 3。 而在自动驾驶领域,常见的方向是 视频生成/OCC生成 ,此外还有 Lidar点云生成等方向 。很多公司基于这些开源算法搭建自己的云端/车端世界模型,用于长尾数 据生成或者闭环仿真/评测。一些公司也在尝试基于世界模型直接赋能车端驾驶能力。 但世界模型的定义仍然很 ...
中国智能驾驶产业的算力巨变
3 6 Ke· 2025-12-30 10:36
Core Insights - In 2025, the Chinese smart driving industry is experiencing an unprecedented shift in computing power, driven by the evolution of software algorithms and the emergence of competing technical paradigms [1][2] - The differentiation in high-level intelligent driving commercial applications is evident, with a K-shaped market split between affordable and high-end models, leading to fragmentation in the industry [2] - The demand for computing power is increasingly recognized as a core element in the development of smart driving technologies, both at the vehicle and cloud levels [2] Group 1: Technological Evolution - The transition to an end-to-end framework in smart driving is marked by significant advancements, as seen in Tesla's FSD Beta V12 software, which utilizes a computing power standard of 144 TOPS [3][4] - Tesla's shift from HW3 to HW4 signifies a major milestone in its autonomous driving evolution, with the latter becoming the preferred platform for future software updates [5][6] - The upcoming FSD V14 version is expected to have ten times the parameters of its predecessor, indicating a substantial leap in the vehicle's ability to process complex environmental information [6] Group 2: Market Dynamics - Chinese smart driving players, including Xpeng, Li Auto, and NIO, are adopting end-to-end strategies but are initially relying on existing computing platforms, primarily NVIDIA's Orin-X [7][12] - By 2025, a clear division among smart driving companies has emerged, categorized into three main factions based on their computing power strategies: self-developed chips, NVIDIA-based solutions, and Huawei's offerings [12][13] - The self-developed chip faction includes NIO's NX9031 and Xpeng's Turing AI chip, while the NVIDIA faction is represented by the latest Thor platform, which is gaining traction in various models [13][14] Group 3: Cloud Computing and Future Prospects - The industry is witnessing a race for cloud computing power, which is essential for the evolution of smart driving algorithms and the transition from L2 to L4 capabilities [19][20] - The reliance on cloud computing is becoming increasingly critical, as it supports data processing, model training, and simulation necessary for addressing complex driving scenarios [23][24] - The ongoing competition for cloud resources is expected to intensify, with companies recognizing that enhanced cloud capabilities are vital for future advancements in autonomous driving technology [20][21]
中兴通讯崔丽:AI应用触及产业深水区,价值闭环走向完备
随着AI大模型快速发展,从基础设施到上层应用的演进正成为新一轮科技竞争的关键。 一种行业观点认为,基座大模型的数量未来将持续收敛至个位数左右,但围绕千行百业将衍生出诸多更 为丰富的垂域模型与应用,那也将是本轮AI浪潮真正引发技术变革的关键所在。 其中,物理AI成为一种重要关注窗口,正加速推进具身智能、自动驾驶等领域演进,有望深刻改变未 来社会的运行方式。但技术路线仍存分歧,法律、合规与伦理等软性基础尚在夯实。而进入"Agent元 年",让AI技术真正触及实体经济的"深水区",仍有挑战需要克服。 中兴通讯首席发展官崔丽接受21世纪经济报道记者专访时,深入分析了物理AI的技术路线走向。据她 观察,一些具体行业已经在真正借力AI,率先完成价值闭环。 物理AI之辩 2025年初,Sora的横空出世因其高度还原物理世界的视频生成能力,引发关于"世界模型"的广泛讨论, 也让物理AI的两条核心路线——世界模型与 VLA(视觉语言模型)的竞争浮出水面。 崔丽对记者分析道,Sora等模型的爆发,标志着AI正从单纯的"预测者"向"模拟者"进化,是从"数据驱 动"到"模型仿真驱动"到"物理对齐"到"通用模拟"的范式转移,也是AI落 ...
正式开课!三个月搞懂自动驾驶世界模型技术栈
自动驾驶之心· 2025-12-30 09:20
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型的愿景是理解并改变物理世界,核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力。 2025年6月yann lecun发布V-JEPA 2,2025年8月DeepMind发布Genie 3,2025年11月李飞飞发布Marble。而在自动驾驶领域,关于世界模型的探索也一直没有停止。 最常见的方向是 视频生成 ,也是学术界和工业界探索最多的领域,像wayve的GAIA-1/2/3,上交CVPR'25的工作UniScene等等。其次是 OCC生成 ,比较经典的有 OccWorld、OccLLaMA,还有最近西交的SOTA工作II-World。 不少公司基于这些开源算法搭建自己的云端/车端世界模型,用于长尾数据生成或者闭环仿真/评测。一些公司也在尝试基于世界模型直接赋能车端驾驶能力。 但世界模型的定义仍然很模糊,生成 = 世界模型? 生成 + 重建 = 世界模型。 对于新入行的同学来说,总是搞不明白。 不少同学跟柱哥吐槽,相当多的时间"浪费"在踩 坑上了。 想要搞懂世界模型,完成数据生成、 ...