世界模型

Search documents
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 12:17
写在前面 & 笔者的个人理解 扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面 仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回 归扩散世界模型,通过两项关键创新实现局部时空分布建模:1) 解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2) 模块化的轨迹与视频预测 ,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持 续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一 步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 地平线联合 ...
AI大模型行业专题解读
2025-07-07 00:51
GPT-5 在技术层面将进行多项升级。首先,它将在推理链条上进行优化,以提 高用户体验,减少回答的啰嗦和过于简单的问题。其次,GPT-5 将尝试将多个 相关模型以 agent 编排的形式合并,为用户提供更全能的使用体验。此外,在 多模态层面,GPT-5 将提升理解能力,这对于拓展 B 端业务尤为重要,因为生 成能力主要偏向娱乐层面,而理解能力在当前阶段对 B 端业务更为关键。参数 规模方面,GPT-5 预计会提升到 3 万亿至 4 万亿参数左右,并且推理性价比也 会有所提高。发布时间预计在 2025 年下半年,但也可能延迟到 2026 年春节 前。 OpenAI 如何应对 C 端市场竞争以及定价策略? OpenAI 在 C 端市场已经与其他公司拉开了巨大差距,因此压力较小。目前 OpenAI 正在积极拓展 B 端业务。在定价策略方面,尽管 GPT 的定价稳步提升, 但流量也在持续增长。同时,OpenAI 计划免费开放一些基础版功能,以继续 AI 大模型行业专题解读 20250706 摘要 GPT-5 预计在 2025 年下半年或 2026 年初发布,参数规模将提升至 3- 4 万亿,并优化推理链条,强调通用推 ...
“反击”马斯克,奥特曼说OpenAI有“好得多”的自动驾驶技术
3 6 Ke· 2025-07-07 00:32
OpenAI的CEO山姆·奥特曼和特斯拉CEO马斯克的矛盾,已经是硅谷热门的八卦。 两人都是OpenAI的联合创始人,但是奥特曼将OpenAI转向商业化运营之后,马斯克指责其背离初心,并起诉他违背创始协议。另外,马斯克还成立xAI, 和OpenAI直接竞争。 奥特曼也奋起反击,公布邮件显示,马斯克试图掌控OpenAI,遭到拒绝后才不断阻挠。 奥特曼可能还酝酿了一个"以其之道还施彼身"的反击举措,那就是研发自动驾驶,和特斯拉FSD竞争。 最近,奥特曼在做客了自己兄弟杰克·奥特曼的脱口秀,不知是否和兄弟聊天说漏了嘴。 根据纽约时报旗下DealBook的消息,该技术尚处于早期阶段,商业化也还要很远。 他说: 我想我们有一些新技术,可以为普通汽车提供自动驾驶,而且比当前技术要好得多。 I think we have some new technology thatcould just do self-driving for standard carsway better than any current approach has worked. 这里说比"当前技术""好得多",当然也包括马斯克的FSD。 不过,奥特曼 ...
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 12:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 当前自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段。如果你对自动驾驶 有浓厚的兴趣,并且想找业内最专业的大佬交流,那么这个圈子一定没错!技术迭代的浪潮下暗藏职业焦虑。 对职场老人而言 ,传统以激光雷达为核心的感知算法工程师可能面临路线冲击——特斯拉的纯视觉方案依托成 本优势和算法革新,正在撼动多传感器融合的主流地位;而规划控制领域从PID到强化学习的转型,也让依赖传 统控制理论的从业者陷入技能升级的紧迫感。 学生新手则陷入"选择困难症" :感知算法赛道因头部企业技术垄 断加剧内卷,数据闭环工程师需要同时掌握分布式计算与AI模型调优能力,而新兴的车路协同方向又要求跨界 融合通信与交通系统工程知识。当禾赛科技将激光雷达成本降至200美元、比亚迪宣布自研体系内价格再降70% 时, 技术红利背后实则是从业者必须持续奔跑的生存法则,这种技术路线的不确定性与知识体系的重构压力, 正在重塑自动驾驶人才市场的竞争格局。 后处理,写逻辑建议转行业可以,不要换方向,gap还是蛮大。现在很多人 ...
最新综述:从物理仿真和世界模型中学习具身智能
自动驾驶之心· 2025-07-05 13:41
以下文章来源于具身智能之心 ,作者Xiaoxiao Long等 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xiaoxiao Long等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 本综述聚焦具身智能在机器人研究中的前沿进展,指出实现强大具身智能的关键在于物理模拟器与世界模 型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部 表征能力以支持预测规划与决策。 机器人的智能水平基于以下五个因素进行分级。 分类等级 文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨 了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新 文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World- ...
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 09:12
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 具身智能无疑是这两年最的方向。从几年前的沉寂到去年的疯狂,再到25上半年开始逐渐冷静。大家慢慢回 过神来,具身机器人还远远未到生产力的阶段。 以下是 知识星球 内部一位双非同学的提问,非常有代表性: 各位大佬们好,我目前是一个双非的研究生,我的研究方向是多传感器融合定位的,然后学过python,深 度学习,ros,但都学的不是很精,现在想多学一点为以后找工作用,感觉算法岗我的学历可能不太行,请 问各位大佬们我应该往哪个方向学比较好呢?具身智能感觉也还不太成熟,不确定这波热度能到什么时 候?请问各位大佬后面应该学些什么知识呢? 星主回答:你的技术栈都比较偏机器人一些,SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这 块需求也比较大,可以做一些优化、集成类工作~ 另一方面,我们了解到大一些的公司各家的hc都不是很高,要求基本上都是端到端、大模型、VLA、强化学 习、3DGS这些比较前沿的方向。如果你做的是这块,是有机会的,很多tire 1的公司或者主机厂也正在follow前 沿的技术,大概是从无图往 ...
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 05:53
本文的第一作者吴怡琳现为卡内基梅隆大学机器人学院二年级博士生,导师为 Prof. Andrea Bajcsy。她的研究聚焦于开放世界场景下的物体操控与机器人 终身学习。吴怡琳本科毕业于上海交通大学,并于斯坦福大学取得计算机科学硕士学位。她曾与 Prof. Pieter Abbeel、Prof. Lerrel Pinto、Prof. Dorsa Sadigh 及 Prof. David Held 等多位专家合作,开展可变形物体操控、双臂协作操作及辅助喂食机器人等方向的研究,获得过 ICRA 最佳论文,CoRL 的 oral 论文录用。目前,她正在 NVIDIA 西雅图机器人实验室参与暑期研究,继续推进具身智能模型在复杂场景下的可扩展性与部署能力。 第二作者田然是 UC Berkeley 即将毕业的博士生同时在 NVIDIA 担任研究科学家,研究方向致力于推动机器人基础模型在真实世界中实现大规模、安全、 可信的落地应用。他的研究系统性地探索了机器人基础模型在预训练、后训练到实际部署各阶段中所面临的安全与偏好对齐挑战。他的工作获得了多个最佳 论文和国际奖项的肯定,包括:世界人工智能大会 「 云帆奖 」 、高通创新奖 ...
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 04:03
Sekai团队 投稿 量子位 | 公众号 QbitAI LeCun、李飞飞力挺的世界模型,想要实现,高质量数据是关键,也是难点。 现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展: 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构 聚焦世界生成的第一步——世界探索 ,联合推出一个 持续迭代的高 质量视频数据集项目——Sekai (日语意为"世界") ,服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构 建一个动态且真实的世界,可供用户不受限制进行交互探索。 它汇聚了 来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角真实世界或游戏视频, 配有精细化的标签, 涵盖文本描述、地点、天气、时间、人群密度、场景类型与相机轨迹等重要信息。总的来说,具有视频质量高、视频时间长、视角多样、地域 丰富及多维度标签等特点。 团队还利用Sekai部分数据,训练了一个初步的交互式视频世界探索模型—— Yume (日语意为"梦")。Yume在输入图片的基础上,通过 交 互式键鼠操作 (移动、视角转动)自回归形式地控制生成视频。 构建Sek ...
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xiaoxiao Long等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 本综述聚焦具身智能在机器人研究中的前沿进展,指出实现强大具身智能的关键在于物理模拟器与世界模 型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部 表征能力以支持预测规划与决策。 文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨 了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新 文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey, 旨在为具身 AI 系统的发展提供全面视角并明确未来挑战。 一些介绍 随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研 ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并 探索其在自动驾驶和通用机器人领域的统一应用潜力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对 ...