Workflow
世界模型
icon
Search documents
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 08:01
岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能 VLA 模型,世界模型。 阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图 片、动作理解和生成的全自回归模型。 论文标题:WorldVLA: Towards Autoregressive Action World Model 论文地址:https://arxiv.org/pdf/2506.21539 代码地址:https://github.com/alibaba-damo-academy/WorldVLA 研究简介 近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模 型(Multimodal Large Language Models, MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs 在感知和决 ...
中国汽车的“爷爷”长啥样?70年变迁,竟然只在一瞬间!
电动车公社· 2025-07-02 15:59
如果大家看到这里还意犹未尽,不如多翻翻我们的 「视频 号」。 除了这种体验类的节目之外,其他文字说 起来有些枯燥,但又值得「细说」的内容,都会放在这里。 比如这期,会和大家聊聊近期上市的新车,小鹏G7: 关注 「电动车公社」 一直以来,滑布李都是给大家拍新车、讲技术、录节目。但这一次,他想用第一视角,带大家沉浸式体验一下 北京汽车博物馆。 原因也很简单:一方面是希望通过国宝级的车型回顾一下中国汽车发展史,到底是如何从"手工敲车壳"成为全 球汽车产销/出口第一大国,再到后来的技术井喷、反哺全球品牌的; 另一方面,也希望带大家看看中国的汽车文化究竟从何而来,我们现在的新能源又要到哪里去。 那么,北京汽车博物馆里究竟有哪些"狠货"?几十年后的新车,又有了怎样的进化? 关注电动车公社 视频号 更多精彩视频不错过 戳开看视频 每个人都能享受时代进步的红利 再比如这期,我们也会和大家讲明白电池新国标到底改哪了: 再或者,和大家讲讲什么是世界模型,AI和智驾运行的底层逻辑: 欢迎大家在闲下来的时候多翻翻 「电动车公社视频号 」,我保证这是今年你关注的所有公众号里最有意 义、也最有趣有料的一个。 和我们一起重新思考汽车 点击 ...
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 10:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yu Shang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 根源在于现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness。此前整合物理知识的尝试分为三类: 物理先验正则化(局限于人类运动或刚体动力学等窄域)、基于物理模拟器的知识蒸馏(级联 pipeline 计 算复杂)、材料场建模(限于物体级建模,难用于场景级生成)。因此,如何在统一、高效的框架中整合 物理知识,成为亟待解决的核心问题。 核心方法 问题定义 聚焦机器人操作场景,学习具身世界模型 作为动力学函数,基于过去的观测 和机器人动作 预测 下一个视觉观测 ,公式为: 研究背景与核心问题 在具身智能领域,世界模型作为强大的模拟器,能生成逼真的机器人视频并缓解数据稀缺问题,但现有模 型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中,因缺乏对3D几何和运动动力学的建模能 力,生成的视频常出现不真实的物体变形或 ...
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 07:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yu Shang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与核心问题 在具身智能领域,世界模型作为强大的模拟器,能生成逼真的机器人视频并缓解数据稀缺问题,但现有模 型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中,因缺乏对3D几何和运动动力学的建模能 力,生成的视频常出现不真实的物体变形或运动不连续等问题,这在布料等可变形物体的操作任务中尤为 突出。 基于自回归Transformer框架,实现帧级动作可控的机器人视频生成,核心是通过两个物理感知辅助任务整 合物理知识(figure 2): 根源在于现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness。此前整合物理知识的尝试分为三类: 物理先验正则化(局限于人类运动或刚体动力学等窄域)、基于物理模拟器的知识蒸馏(级联 pipeline 计 算复杂)、材料场建模(限于物体级建模,难用于场景级生成)。因此, ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 12:07
核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理,生成安全、合 理、可解释的行动序列。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支 ...
“三年实现商业化”,哈啰如何跑通Robotaxi?
AI时代,L4级别的Robotaxi被视为自动驾驶"皇冠上的明珠"。经过十年发展,行业的技术路径日益清 晰,正在从技术研发的比拼转向规模化、商业化竞争。 哈啰Robotaxi首席科学家Yolanda近日接受21世纪经济报道记者采访时指出,Robotaxi已形成以传统车 企、自动驾驶技术公司、运营平台为支点的"黄金三角"。 采访中,Yolanda向外界揭秘了这家出行平台进军自动驾驶的业务逻辑与未来规划,她表示,哈啰希望 三年内实现商业化,逐渐发展海外业务,并加速UE(单位经济效益)打平。 以下为对话实录(在不改变原意的情况下,有删减调整) : "后来者"哈啰,不做整车制造 问:百度、Waymo、特斯拉在自动驾驶深耕差不多十年,哈啰进入到这个行业,信心来自哪里?能赶 上吗? Yolanda:我们后发者的优势有几个点,虽然算力起点晚,但从技术、车企、运营的三角,技术路径在 收敛,整个新能源和智能化产业链在成熟。 这让我们可以更加有针对性地投入,利用这个产业的红利,将Robotaxi从DEMO阶段、高成本的车做到 安全可靠的阶段。哈啰的一个核心的理念就是普惠Robotaxi前装量产的这样一个产品,让Robotaxi商 ...
AI下半场,大模型要少说话,多做事
Hu Xiu· 2025-07-01 01:33
本文来自微信公众号:中国企业家杂志 (ID:iceo-com-cn),作者:闫俊文,原文标题:《对话中国 信通院魏凯:AI下半场,大模型要少说话,多做事》,头图来自:AI生成 今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院) 的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所 所长魏凯。 魏凯说:"2024年一年,国内包括DeepSeek在内的多个大模型团队,一直从多角度努力,不断提升模型 性能,基本上每个月都能看到新的进展。在我们的测试中,DeepSeek在2024年4月的模型性能排名还比 较靠后,8月的版本已经是TOP10里的玩家了,到了10月的版本已经是前几名了,12月发布的DeepSeek- V3成为当时基础能力第一名的模型,而且是开源的,非常了不起。" 2024年底,工业和信息化部成立人工智能标准化技术委员会,魏凯任秘书长,主持日常工作。 6月底,《中国企业家》专访了魏凯,作为资深专家,他对大模型以及当前最火的Agent有独特的看法, 以下是访谈的内容详情(有删减): 一、DeepSeek一直在优化 《中国企业 ...
头部Robotaxi专家小范围交流
2025-07-01 00:40
头部 Robotaxi 专家小范围交流 20250630 摘要 当前自动驾驶主流方案采用局部端到端两阶段模型,前端感知和预测利 用 CNN 结合 LLM,增强环境理解;规划控制则侧重基于规则的方法, 保障驾驶安全性。该方案旨在平衡模型复杂度和安全可靠性。 特斯拉纯视觉端到端模型响应速度快,擅长处理复杂场景,但训练过程 复杂,数据标注困难,自回归特性易累积误差,在未见数据上可能产生 危险行为,相较局部端到端方案面临更大挑战。 国内 L4 级自动驾驶系统在驾驶舒适性、复杂路况安全性及急弯场景路径 规划方面优于特斯拉。国内公司通过多传感器融合提升感知能力,更适 应国内复杂交通环境。 L4 级自动驾驶刚需激光雷达,尤其在夜间和恶劣天气下,能有效识别物 体形状,避免纯视觉方案的感知缺陷。多传感器融合是提升自动驾驶系 统整体性能的关键手段。 激光雷达数据量庞大,对算力需求较高。国产芯片虽在尖峰性能和生态 支持上与英伟达存在差距,但美国制裁推动国产替代,可显著降低成本, 如地平线芯片可节省 80%成本。 Q&A 今年(2025 年)被认为是 L4 级别自动驾驶的元年,国内外各大公司在这一 领域都有显著进展。请介绍一下以 v ...
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 12:17
领域介绍 VLA模型的发展已成为机器人动作模型研究的重要焦点。这些模型通过在大规模预训练多模态大语言模型 (MLLM)的基础上增加动作头或额外的动作专家模块来生成动作。MLLM 在感知和决策方面提供了强大 能力,使 VLA 模型能够在广泛的机器人任务中表现出更强的泛化能力。然而,一个显著的限制仍然存在: 这些模型往往缺乏对动作的全面理解,因为动作仅被视为输出,而未被集成作为输入进行深入分析。相比 之下,世界模型展示了基于当前观察和动作预测未来视觉状态的能力,从而实现对视觉信息和行为动态的 双重理解。尽管有这一优势,世界模型受到无法直接生成动作输出的限制,导致功能缺口,限制了其在需 要显式动作规划的场景中的应用。 作者丨 JunCen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 WorldVLA功能与定义 WorldVLA是一种将动作与图像理解和生成相结合的自回归动作世界模型。WorldVLA 在单一框架中集成了 视觉 - 语言 - 动作( ...
AI专家给奥特曼泼凉水:纯LLM从未真正理解世界,以此构建AGI没希望
3 6 Ke· 2025-06-30 09:29
划重点: 6月29日消息,OpenAI首席执行官山姆・奥特曼(Sam Altman)满怀憧憬,认为通用人工智能的曙光已近在咫尺,其观点如同一剂强心 针,让众多追随者热血沸腾,对未来的智能时代充满无尽遐想。然而,美国认知科学家、人工智能专家加里・马库斯(Gary Marcus)却 如同一盆冷水,无情地泼向这看似热烈的憧憬之中。 马库斯日前发表长文《生成式AI的致命缺陷:缺乏稳健的世界模型》(Generative AI's crippling and widespread failure to induce robust models of the world),在学术与科技界引发强烈共鸣。这篇文章从一个荒诞的AI生成视频切入——视频中,一名国际象棋选手竟将对方 的棋子横向移动数格——引出他对当前生成式人工智能最深层的批判:这些模型虽然能"模仿思考",但从未真正建立起对世界的稳定、 可靠理解。 这并不是第一次有人指出大语言模型在推理方面存在严重缺陷。苹果公司本月发布的研究论文《思维的幻觉》(Illusion of Thinking) 中,就系统记录了大语言模型在逻辑推理和数学计算中频繁出错的实例。然而,正如马库斯 ...