世界模型 - filings, earnings calls, financial reports, news - Reportify

世界模型

Search documents

首次！世界模型、动作模型融合，全自回归模型WorldVLA来了

机器之心· 2025-07-03 08:01

岑俊，阿里巴巴达摩院具身智能大模型算法研究员，博士毕业于香港科技大学。研究方向主要是：具身智能 VLA 模型，世界模型。阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。论文标题：WorldVLA: Towards Autoregressive Action World Model 论文地址：https://arxiv.org/pdf/2506.21539 代码地址：https://github.com/alibaba-damo-academy/WorldVLA 研究简介近年来，视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模型（Multimodal Large Language Models, MLLMs）基础上，添加一个动作输出头或专门的动作模块，以实现对动作的生成。MLLMs 在感知和决 ...

视觉 - 语言 - 动作模型

自回归模型

视觉 - 语言 - 动作模型

自回归模型

中国汽车的“爷爷”长啥样？70年变迁，竟然只在一瞬间！

电动车公社· 2025-07-02 15:59

如果大家看到这里还意犹未尽，不如多翻翻我们的「视频号」。除了这种体验类的节目之外，其他文字说起来有些枯燥，但又值得「细说」的内容，都会放在这里。比如这期，会和大家聊聊近期上市的新车，小鹏G7：关注「电动车公社」一直以来，滑布李都是给大家拍新车、讲技术、录节目。但这一次，他想用第一视角，带大家沉浸式体验一下北京汽车博物馆。原因也很简单：一方面是希望通过国宝级的车型回顾一下中国汽车发展史，到底是如何从"手工敲车壳"成为全球汽车产销/出口第一大国，再到后来的技术井喷、反哺全球品牌的；另一方面，也希望带大家看看中国的汽车文化究竟从何而来，我们现在的新能源又要到哪里去。那么，北京汽车博物馆里究竟有哪些"狠货"？几十年后的新车，又有了怎样的进化？关注电动车公社视频号更多精彩视频不错过戳开看视频每个人都能享受时代进步的红利再比如这期，我们也会和大家讲明白电池新国标到底改哪了：再或者，和大家讲讲什么是世界模型，AI和智驾运行的底层逻辑：欢迎大家在闲下来的时候多翻翻「电动车公社视频号」，我保证这是今年你关注的所有公众号里最有意义、也最有趣有料的一个。和我们一起重新思考汽车点击 ...

新能源汽车

电池新国标

新能源汽车

电池新国标

RoboScape：基于物理信息的具身世界模型，动作可控性提升68.3%

具身智能之心· 2025-07-02 10:18

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Yu Shang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。根源在于现有模型过度依赖视觉令牌拟合，缺乏物理知识 awareness。此前整合物理知识的尝试分为三类：物理先验正则化（局限于人类运动或刚体动力学等窄域）、基于物理模拟器的知识蒸馏（级联 pipeline 计算复杂）、材料场建模（限于物体级建模，难用于场景级生成）。因此，如何在统一、高效的框架中整合物理知识，成为亟待解决的核心问题。核心方法问题定义聚焦机器人操作场景，学习具身世界模型作为动力学函数，基于过去的观测和机器人动作预测下一个视觉观测，公式为：研究背景与核心问题在具身智能领域，世界模型作为强大的模拟器，能生成逼真的机器人视频并缓解数据稀缺问题，但现有模型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中，因缺乏对3D几何和运动动力学的建模能力，生成的视频常出现不真实的物体变形或 ...

RoboScape模型

RoboScape模型

清华大学最新！RoboScape：基于物理信息的具身世界模型，动作可控性提升68.3%

具身智能之心· 2025-07-02 07:44

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Yu Shang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。研究背景与核心问题在具身智能领域，世界模型作为强大的模拟器，能生成逼真的机器人视频并缓解数据稀缺问题，但现有模型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中，因缺乏对3D几何和运动动力学的建模能力，生成的视频常出现不真实的物体变形或运动不连续等问题，这在布料等可变形物体的操作任务中尤为突出。基于自回归Transformer框架，实现帧级动作可控的机器人视频生成，核心是通过两个物理感知辅助任务整合物理知识（figure 2）：根源在于现有模型过度依赖视觉令牌拟合，缺乏物理知识 awareness。此前整合物理知识的尝试分为三类：物理先验正则化（局限于人类运动或刚体动力学等窄域）、基于物理模拟器的知识蒸馏（级联 pipeline 计算复杂）、材料场建模（限于物体级建模，难用于场景级生成）。因此， ...

具身世界模型

RoboScape模型

具身世界模型

RoboScape模型

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-01 12:07

核心职责包括前沿算法研究与构建：负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架，更将探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。核心模型能力攻关：主导模型在以下关键能力上的突破：多模态场景理解：融合视觉、语言、雷达等多源信息，实现对动态、开放环境的深刻理解和空间感知。职位描述我们正在寻找一位杰出的研究员/科学家，加入我们的前沿探索团队，共同定义和构建下一代自动驾驶与机器人的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究，该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力。复杂语义推理与决策：让模型能够理解模糊、抽象的人类指令，并结合对物理世界的空间推理，生成安全、合理、可解释的行动序列。学习与适应机制：深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法，使模型能从海量数据和与环境的交互中持续学习和进化。技术愿景与路线图：主导构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支 ...

XIAOMI(HK:01810)

多模态大模型

多模态大模型

“三年实现商业化”，哈啰如何跑通Robotaxi？

2 1 Shi Ji Jing Ji Bao Dao· 2025-07-01 10:03

AI时代，L4级别的Robotaxi被视为自动驾驶"皇冠上的明珠"。经过十年发展，行业的技术路径日益清晰，正在从技术研发的比拼转向规模化、商业化竞争。哈啰Robotaxi首席科学家Yolanda近日接受21世纪经济报道记者采访时指出，Robotaxi已形成以传统车企、自动驾驶技术公司、运营平台为支点的"黄金三角"。采访中，Yolanda向外界揭秘了这家出行平台进军自动驾驶的业务逻辑与未来规划，她表示，哈啰希望三年内实现商业化，逐渐发展海外业务，并加速UE（单位经济效益）打平。以下为对话实录(在不改变原意的情况下，有删减调整) ： "后来者"哈啰，不做整车制造问：百度、Waymo、特斯拉在自动驾驶深耕差不多十年，哈啰进入到这个行业，信心来自哪里？能赶上吗？ Yolanda：我们后发者的优势有几个点，虽然算力起点晚，但从技术、车企、运营的三角，技术路径在收敛，整个新能源和智能化产业链在成熟。这让我们可以更加有针对性地投入，利用这个产业的红利，将Robotaxi从DEMO阶段、高成本的车做到安全可靠的阶段。哈啰的一个核心的理念就是普惠Robotaxi前装量产的这样一个产品，让Robotaxi商 ...

L4级自动驾驶

L4级自动驾驶

AI下半场，大模型要少说话，多做事

Hu Xiu· 2025-07-01 01:33

本文来自微信公众号：中国企业家杂志（ID：iceo-com-cn），作者：闫俊文，原文标题：《对话中国信通院魏凯：AI下半场，大模型要少说话，多做事》，头图来自：AI生成今年2月DeepSeek爆火，震惊国内外。实际上，在此之前，中国信息通信研究院（下称：中国信通院）的大模型评测团队就观察到国内模型性能迅速提升的势头，他们当中就包括中国信通院人工智能研究所所长魏凯。魏凯说："2024年一年，国内包括DeepSeek在内的多个大模型团队，一直从多角度努力，不断提升模型性能，基本上每个月都能看到新的进展。在我们的测试中，DeepSeek在2024年4月的模型性能排名还比较靠后，8月的版本已经是TOP10里的玩家了，到了10月的版本已经是前几名了，12月发布的DeepSeek- V3成为当时基础能力第一名的模型，而且是开源的，非常了不起。" 2024年底，工业和信息化部成立人工智能标准化技术委员会，魏凯任秘书长，主持日常工作。 6月底，《中国企业家》专访了魏凯，作为资深专家，他对大模型以及当前最火的Agent有独特的看法，以下是访谈的内容详情（有删减）：一、DeepSeek一直在优化《中国企业 ...

Artificial Intelligence

规模定律（Scaling Law）

Artificial Intelligence

规模定律（Scaling Law）

头部Robotaxi专家小范围交流

2025-07-01 00:40

头部 Robotaxi 专家小范围交流 20250630 摘要当前自动驾驶主流方案采用局部端到端两阶段模型，前端感知和预测利用 CNN 结合 LLM，增强环境理解；规划控制则侧重基于规则的方法，保障驾驶安全性。该方案旨在平衡模型复杂度和安全可靠性。特斯拉纯视觉端到端模型响应速度快，擅长处理复杂场景，但训练过程复杂，数据标注困难，自回归特性易累积误差，在未见数据上可能产生危险行为，相较局部端到端方案面临更大挑战。国内 L4 级自动驾驶系统在驾驶舒适性、复杂路况安全性及急弯场景路径规划方面优于特斯拉。国内公司通过多传感器融合提升感知能力，更适应国内复杂交通环境。 L4 级自动驾驶刚需激光雷达，尤其在夜间和恶劣天气下，能有效识别物体形状，避免纯视觉方案的感知缺陷。多传感器融合是提升自动驾驶系统整体性能的关键手段。激光雷达数据量庞大，对算力需求较高。国产芯片虽在尖峰性能和生态支持上与英伟达存在差距，但美国制裁推动国产替代，可显著降低成本，如地平线芯片可节省 80%成本。 Q&A 今年（2025 年）被认为是 L4 级别自动驾驶的元年，国内外各大公司在这一领域都有显著进展。请介绍一下以 v ...

L4级别自动驾驶

多传感器融合

L4级别自动驾驶

多传感器融合

WorldVLA：世界模型实现视觉-动作双向增强，抓取精度显著提升

具身智能之心· 2025-06-30 12:17

领域介绍 VLA模型的发展已成为机器人动作模型研究的重要焦点。这些模型通过在大规模预训练多模态大语言模型（MLLM）的基础上增加动作头或额外的动作专家模块来生成动作。MLLM 在感知和决策方面提供了强大能力，使 VLA 模型能够在广泛的机器人任务中表现出更强的泛化能力。然而，一个显著的限制仍然存在：这些模型往往缺乏对动作的全面理解，因为动作仅被视为输出，而未被集成作为输入进行深入分析。相比之下，世界模型展示了基于当前观察和动作预测未来视觉状态的能力，从而实现对视觉信息和行为动态的双重理解。尽管有这一优势，世界模型受到无法直接生成动作输出的限制，导致功能缺口，限制了其在需要显式动作规划的场景中的应用。作者丨 JunCen等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。 WorldVLA功能与定义 WorldVLA是一种将动作与图像理解和生成相结合的自回归动作世界模型。WorldVLA 在单一框架中集成了视觉 - 语言 - 动作（ ...

自回归动作世界模型

自回归动作世界模型

AI专家给奥特曼泼凉水：纯LLM从未真正理解世界，以此构建AGI没希望

3 6 Ke· 2025-06-30 09:29

划重点： 6月29日消息，OpenAI首席执行官山姆・奥特曼（Sam Altman）满怀憧憬，认为通用人工智能的曙光已近在咫尺，其观点如同一剂强心针，让众多追随者热血沸腾，对未来的智能时代充满无尽遐想。然而，美国认知科学家、人工智能专家加里・马库斯（Gary Marcus）却如同一盆冷水，无情地泼向这看似热烈的憧憬之中。马库斯日前发表长文《生成式AI的致命缺陷：缺乏稳健的世界模型》（Generative AI's crippling and widespread failure to induce robust models of the world），在学术与科技界引发强烈共鸣。这篇文章从一个荒诞的AI生成视频切入——视频中，一名国际象棋选手竟将对方的棋子横向移动数格——引出他对当前生成式人工智能最深层的批判：这些模型虽然能"模仿思考"，但从未真正建立起对世界的稳定、可靠理解。这并不是第一次有人指出大语言模型在推理方面存在严重缺陷。苹果公司本月发布的研究论文《思维的幻觉》（Illusion of Thinking）中，就系统记录了大语言模型在逻辑推理和数学计算中频繁出错的实例。然而，正如马库斯 ...

通用人工智能

大语言模型

通用人工智能

大语言模型