Workflow
世界模型
icon
Search documents
华为、蔚来重金押注WA世界模型!这才是未来辅助驾驶的发展方向?
电动车公社· 2025-10-03 15:58
最后挖了个坑,说下一篇要详细讲一讲另一条技术路线WA世界模型。 毕竟, 华为智能汽车解决方案BU CEO 靳玉志 曾表示, VLA大模型是一条取巧的技术路线,华为不会选择,而是会坚定的走WA世界模型路线。 从评论区社友们的反馈来看,催更呼声很高: 话不多说,咱们今天就来聊聊 WA世界模型到底是什么?它与传统端到端和VLA技术路线到底有什么差别?分别有何优势劣势? 01. 让机器解析物理世界 关注 「电动车公社」 和我们一起重新思考汽车 大家好,我是电动车公社的社长。 前几天,我们写了一篇分析近期辅助驾驶领域非常时髦的一条技术路线,VLA语言动作大模型的文章: 《理想、小鹏重金押注VLA大模型!"天才"还是"傻 瓜"?》 说起WA世界模型,或许对辅助驾驶领域比较关注的朋友,第一时间会想起 华为和蔚来 ,这两家都是对外已经官宣走WA世界模型这条路线的典型代表。 尤其是华为,作为现阶段公认辅助驾驶界TOP1的存在,"五界"+乾坤智驾基本上涵盖了将近半个车圈。 所以说,WA世界模型这条技术路线,至少在现阶段产品覆盖度是相当高的。 实际上,和VLA大模型一样,WA世界模型这个概念最早并不是由华为或蔚来等国内公司首次提出 ...
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 03:32
以下文章来源于具身智能之心 ,作者具身智能之心 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 然而Physical Intelligence (PI)联合创始人、具身智能领域的先行者Sergey Levine始终坚称:替代数据是叉勺(叉子勺子二合一的产物,既不 如勺子,也不如叉子),真实交互数据不可替代——这究竟是策略局限,还是数据本质的铁律?如今,Genie3携世界模型横空出世,能够 从文本生成可交互的动态环境,甚至驱动在线规划。这是否意味着我们正站在"仿真"与"现实"二元对立终结的前夜?世界模型会成为数据 问题的终极答案,还是仅仅换了一种形式的sim,并依然难逃Sim-to-Real gap的宿命? 本场技术圆桌,我们邀请到国内Sim2Real领域四位杰出青年科学家—— 与他们四位共话前沿,从高保真3D资产构建、神经渲染的物理瓶颈、铰链体结构优化,到VLA模型的解耦设计等方面入手深入探讨:具身 智能的数据之路,究竟通向仿真、现实,还是那个正在觉醒的"世界模型"? 智驾的学术领袖和未来的具身学术领袖,Un ...
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心· 2025-10-02 03:04
为解决场景生成与重建之间的这一困境,南开大学&小米汽车的团队提出了WorldSplat——一种用于4D驾驶场景生成的全新前馈式框架。该方法通过两 个关键步骤高效生成具有一致性的多轨迹视频:(1)引入融合多模态信息的4D感知潜在扩散模型,以前馈方式生成像素对齐的4D高斯分布;(2)利 用增强型视频扩散模型,对基于这些高斯分布渲染的新视角视频进行优化。在基准数据集上开展的大量实验表明,WorldSplat能够有效生成高保真、具 备时空一致性的多轨迹新视角驾驶视频。 让我们先来看两段视频: 世界模型自提出以来,一直被视为理解世界更本质的一种方式,因此获得了非常广泛的研究。世界模型是一种生成式的方法,但在自动驾驶的场景理解 中,纯生成的方法一直没有得到广泛的应用。 现有生成的方法主要聚焦于生成多样化、真实的的驾驶视频;然而由于3D一致性有限且视角覆盖稀疏,这些方法难以支持便捷、高质量的新视角合 成。与之相反,近年来的3D/4D重建方法虽大幅提升了真实驾驶场景的重建效果,却天生缺乏生成新视角能力。 所以一种可能的方式是利用生成+重建结合的形式,来建模自动驾驶场景。 3DGS用于重建原始场景,生成方法用于优化新视角,两者 ...
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 01:30
为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。世界模型通过学习从智能体(如机器人或电子游戏玩家)的视角预测潜在行动的 未来结果,为实现这一目标提供了一种有前景的方法。 通过这种方式,世界模型使智能体能够深入理解世界,并具备通过在想象中进行规划或强化学习来选择行动的能力。此外,原则上世界模型可以从固定数据集中 学习,这使得智能体能够纯粹在想象中进行训练,而无需在线交互。对于许多实际应用而言,离线优化行为很有价值,例如物理世界中的机器人,在这种情况 下,与未充分训练的智能体进行在线交互往往不安全。 世界模型智能体 —— 如 Dreamer 3—— 是迄今为止在游戏和机器人领域表现最佳且最为稳健的强化学习算法之一。虽然这些模型在其特定的狭窄环境中速度快且 准确,但其架构缺乏拟合复杂现实世界分布的能力。可控视频模型,如 Genie 3,已在多样的真实视频和游戏上进行训练,并实现了多样的场景生成和简单交互。 这些模型基于可扩展架构,如 diffusion transformer。然而,它们在学习物体交互和游戏机制的精确物理规律方面仍存在困难,这限制了它们在训练成功智能体方面 的实用性。此外,它们 ...
Sim,Real还是World Model?具身智能数据的“困境”与解法
具身智能之心· 2025-10-01 12:48
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能的征途上,我们究竟该依赖仿真的效率,还是现实的真实数据,甚或期待世界模型改变游戏规则? 随着物理仿真进入深水区,"仿真派"能否笑到最后? 然而Physical Intelligence (PI)联合创始人、具身智能领域的先行者Sergey Levine始终坚称:替代数据是叉勺(叉子勺子二合一的产物,既不 如勺子,也不如叉子),真实交互数据不可替代——这究竟是策略局限,还是数据本质的铁律?如今,Genie3携世界模型横空出世,能够 从文本生成可交互的动态环境,甚至驱动在线规划。这是否意味着我们正站在"仿真"与"现实"二元对立终结的前夜?世界模型会成为数据 问题的终极答案,还是仅仅换了一种形式的sim,并依然难逃Sim-to-Real gap的宿命? 本场技术圆桌,我们邀请到国内Sim2Real领域四位杰出青年科学家—— 与他们四位共话前沿,从高保真3D资产构建、神经渲染的物理瓶颈、铰链体结构优化,到VLA模型的解耦设计等方面入手深入探讨:具身 智能的数据之路,究竟通向仿真、现实,还是那个正在 ...
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-29 23:33
车企的新一轮变革已经拉开了帷幕。 九月,车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大 搭实验室了。 目前,自动驾驶的前沿方向聚焦在自动驾驶VLA/VLM、端到端自动驾驶、世界模型world model、闭环仿真3DGS、强化学习等等。但很多在校的同学根本不清楚业内实际的进展,很多 中小厂的算法工程师也是如此。通过几次的线上星友面对面交流,柱哥更是深刻意识到这个问 题。 所以我们最近一直在琢磨,怎样才能成为大家沟通的桥梁,打通学术界和工业界的信息壁 垒,打通不同公司之间的信息壁垒。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今 年是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正 的活力和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 添加博主微信咨询自驾社区 所以我们联合了诸多学术界和工业界的大佬,共同打造了我们维护三年之久的『自动驾驶之心知 识星球』! 星球目前集视频 + 图文 + 学 ...
华尔街见闻早餐FM-Radio|2025年9月30日
Sou Hu Cai Jing· 2025-09-29 23:27
Market Overview - Technology stocks supported the three major US stock indices, which rose for two consecutive days to a one-week high, with Nvidia up over 2% and Micron up over 4% [1] - The US Treasury bonds saw a rise, with the ten-year yield declining for the first time in four days [1] - Bitcoin surged nearly $4,000, surpassing the $114,000 mark, while Ethereum rebounded over 4% [1] - Crude oil prices fell over 3%, marking the largest drop in three months, with WTI down over 4% [1] - Gold prices hit a historical high, with spot gold rising nearly 2% to break the $3,800 mark for the first time [1] Key News - The Central Committee of the Communist Party of China held a meeting to discuss documents to be submitted for review at the 20th Central Committee's Fourth Plenary Session [11] - The National Development and Reform Commission announced a new policy financial tool with a total scale of 500 billion yuan, aimed at supporting private enterprises' deep participation in the "Artificial Intelligence +" initiative [11][12] Company News - Facing competition from the iPhone 17, analyst Guo Mingqi lowered the shipment target for Xiaomi 17 by 20% [17] - Anthropic launched Claude Sonnet 4.5, claiming it to be the "best coding model globally" [17][23] - OpenAI plans to launch Sora 2, an independent app that defaults to using copyrighted content, which has sparked controversy [17] Industry Insights - The A-share market is experiencing a bull market characterized by high volume, moderate enthusiasm, and distinct structural features, with no clear bubble signals [18] - The semiconductor industry is seeing significant developments, with Shenzhen's new semiconductor company attracting external investors [15] - The education sector is undergoing transformation due to digital technology and AI, with a focus on enhancing digital education services [24]
金融时报:超级智能的下一个入口,谷歌、Meta、英伟达......科技巨头都在加码“世界模型”
美股IPO· 2025-09-29 08:51
Core Viewpoint - Major AI companies like Google DeepMind, Meta, and Nvidia are shifting their R&D focus towards "world models" to gain an edge in the race towards machine "superintelligence" [1][3][7] Group 1: Market Potential - The potential market size for "world models" is estimated to be as high as $100 trillion, encompassing sectors such as autonomous driving, robotics, and manufacturing [1][3][4] Group 2: Technological Developments - Recent advancements in "world models" have been highlighted by various AI companies, with Google DeepMind releasing Genie 3, which generates video frame by frame, allowing for scalable AI training without real-world consequences [5] - Meta is training its V-JEPA model using raw video content to mimic children's passive learning through observation, with ongoing tests on robots [5] - Nvidia's CEO has stated that the next major growth phase for the company will come from "physical AI," leveraging its Omniverse platform for simulations to support expansion into robotics [5] Group 3: Applications and Innovations - "World models" are being applied in the entertainment industry, with startups like World Labs developing models that generate 3D environments from single images, and Runway creating game scenes that better understand physical laws [6] Group 4: Industry Challenges - The shift towards "world models" is driven by the perception that large language models (LLMs) are reaching their performance ceiling, with significant investments from major companies [7][8] - Despite the promising outlook, building these models requires vast amounts of physical world data and computational power, which remains a significant technical challenge [9] - Experts believe that achieving human-level intelligence in machines driven by next-generation AI systems may still take up to a decade [9]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
Core Viewpoint - 2023 is identified as the year of end-to-end production, with 2024 expected to be a significant year for this development in the automotive industry, particularly in autonomous driving technology [1][3]. Group 1: End-to-End Production - Leading new forces and manufacturers have already achieved end-to-end production [1]. - There are two main paradigms in the industry: one-stage and two-stage approaches, with UniAD being a representative of the one-stage method [1]. Group 2: Development Trends - Since last year, the one-stage end-to-end approach has rapidly evolved, leading to various derivatives such as perception-based, world model-based, diffusion model-based, and VLA-based one-stage methods [3]. - Major autonomous driving companies are focusing on self-research and mass production of end-to-end autonomous driving solutions [3]. Group 3: Course Offerings - A course titled "End-to-End and VLA Autonomous Driving" has been launched, covering cutting-edge algorithms in both one-stage and two-stage end-to-end approaches [5]. - The course aims to provide insights into the latest technologies in the field, including BEV perception, visual language models, diffusion models, and reinforcement learning [5]. Group 4: Course Structure - The course consists of several chapters, starting with an introduction to end-to-end algorithms, followed by background knowledge essential for understanding the technology stack [9][10]. - The second chapter focuses on the most frequently asked technical keywords in job interviews over the next two years [10]. - Subsequent chapters delve into two-stage end-to-end methods, one-stage end-to-end methods, and practical assignments involving RLHF fine-tuning [12][13]. Group 5: Learning Outcomes - Upon completion, participants are expected to reach a level equivalent to one year of experience as an end-to-end autonomous driving algorithm engineer [19]. - The course aims to deepen understanding of key technologies such as BEV perception, multimodal large models, and reinforcement learning, enabling participants to apply learned concepts to real projects [19].
AI下一轮飞跃的引爆点:“世界模型”
财联社· 2025-09-29 08:44
科创板日报 . 专注科创板和科技创新,上海报业集团主管主办,界面财联社出品。 人工智能先驱们几乎一致认为,世界模型对打造下一代人工智能正至关重要。许多人表示,该技术终将助力创造超越人类的"通用人工智 能"(AGI)。 早在去年,斯坦福大学教授、人工智能"教母"李飞飞已筹集2.3亿美元创立世界模型初创公司World Labs。英伟达首席执行官黄仁勋今年早 些时候也表示,世界模型能助力实现"物理人工智能",自主操控机器人、自动驾驶汽车等设备。 而就在上周,Meta官宣发布了一款名为代码世界模型(Code World Model)的LLM,探索如何使用世界模型改进AI代码生成性能。Meta新 成立的超级智能AI实验室将与机器人团队合作,构建一个"世界模型",模拟现实世界物理规律,为机器人提供空间感知和精细操作能力,弥 补现有机器人的不足。 在中国方面,全球知名增长咨询公司Frost & Sulllivan近期发布的《2025年中国世界模型发展白皮书》报告显示,中国世界模型领域玩家已 经超过10家。 以下文章来源于科创板日报 ,作者潇湘 优步前AI业务负责人、经常批评当前AI模式的Gary Marcus指出,无论当今 ...