世界模型

Search documents
AI专家给奥特曼泼凉水:纯LLM从未真正理解世界,以此构建AGI没希望
3 6 Ke· 2025-06-30 09:29
划重点: 6月29日消息,OpenAI首席执行官山姆・奥特曼(Sam Altman)满怀憧憬,认为通用人工智能的曙光已近在咫尺,其观点如同一剂强心 针,让众多追随者热血沸腾,对未来的智能时代充满无尽遐想。然而,美国认知科学家、人工智能专家加里・马库斯(Gary Marcus)却 如同一盆冷水,无情地泼向这看似热烈的憧憬之中。 马库斯日前发表长文《生成式AI的致命缺陷:缺乏稳健的世界模型》(Generative AI's crippling and widespread failure to induce robust models of the world),在学术与科技界引发强烈共鸣。这篇文章从一个荒诞的AI生成视频切入——视频中,一名国际象棋选手竟将对方 的棋子横向移动数格——引出他对当前生成式人工智能最深层的批判:这些模型虽然能"模仿思考",但从未真正建立起对世界的稳定、 可靠理解。 这并不是第一次有人指出大语言模型在推理方面存在严重缺陷。苹果公司本月发布的研究论文《思维的幻觉》(Illusion of Thinking) 中,就系统记录了大语言模型在逻辑推理和数学计算中频繁出错的实例。然而,正如马库斯 ...
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 06:38
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI LeCun在干嘛呢? 就在扎克伯克亲自带队Meta的AI项目,千亿薪酬挖得硅谷人心浮动之际。Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一 的Yann LeCun,却几乎声量全无,他没有参与LLM基础模型的研发,也开始在社交网络上消停了。 LeCun是要离开Meta了吗? 不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun团队的世界模型新进展来了。 名叫 PEVA模型 ,新突破是让具身智能体学会这人类一样的"预判能力",首次实现16秒连贯场景预测。怎么说呢?就像人类伸手时会预判手 臂进入视野的角度、走路时会提前观察脚下路径,LeCun团队的最新模型,可以让机器人实现这样的能力。 该模型通过 结构化动作表示将 人体48维关节运动学数据与 条件扩散Transformer 结合。 利用VAE编码视频帧、自适应层归一化嵌入动作条件及跨历史帧注意力机制等,实现了从全身动作 预测第一视角视频 的高精度生成与长期时 序连贯。 PEVA模型让具身智能体不再依赖"上下左右"这种抽象信号进行训练,而是以 第一人称视角的视频+全 ...
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
近期,吉林大学人工智能学院发布了一项基于强化学习训练的 VLM 智能体最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它让视觉语言模型(VLM)真正学会了「自我探索 GUI 环境」。 论文地址:https://arxiv.org/abs/2505.19095 项目地址:https://github.com/niuzaisheng/ScreenExplorer 该工作带来三大核心突破: 作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。通讯作者王琪为吉林大学人 工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发 展,智能体已展现出令人瞩目的跨领域任务泛化能力。 而在我们触手可及的开放世界环境中,图形用户界面(GUI)无疑是人机交互最普遍 ...
特文特大学Vanessa Evers:构建机器人的“世界模型”是实现社交智能的关键
Qi Lu Wan Bao· 2025-06-25 06:38
天津北方网讯:日前,2025天津夏季达沃斯分论坛之一"与社交机器人共舞"在国家会展中心(天津)举行。面对机器人走上秀 场、智能机器人助教进入课堂的文化现象,与会嘉宾研究探索如何与社交智能机器人共存以及背后的原因。 特文特大学人类媒体互动研究小组教授Vanessa Evers提出,实现机器人的社交智能需构建"世界模型"。她以"钓鱼"为例解释技术 路径:"钓鱼时需要考虑听觉、视觉等多种感官输入,如果只用定格画面来预测接下来的动作,几乎是不可能的,机器人需要在 真实环境中选择 '接下来做什么?'" 她指出当前局限:"世界模型类似数字孪生,需将整个世界数字化。目前,我们只能在教室、医院等有限环境中尝试,即便有各 种传感器,实现起来仍困难重重。"关于社交能力培养,Vanessa Evers表示:"机器人可通过分析YouTube视频学习人类表情与礼 仪,但其工作方式不必和人类完全相同。例如打开一个罐子,不一定需要像人类一样的手臂,可使用更优化的机械臂。我们可 将其视为"外星人"——有独特的语言,却能无缝与人类协作。" 针对研发社交机器人的终极目标(完全融入人类还是提供自我表达空间),她提出防误用思考:"当可穿戴设备将人体 ...
【私募调研记录】深圳领峰资产调研四维图新
Zheng Quan Zhi Xing· 2025-06-25 00:10
Group 1: Company Insights - Shenzhen Lingfeng Asset recently conducted research on the listed company Siwei Tuxin, highlighting the trend of intelligent driving equality becoming a key industry focus [1] - The company noted that mid-to-high-level assisted driving functions are gradually being integrated into lower-end models, establishing intelligent driving as a leading business segment [1] - Siwei Tuxin's data compliance business shows a clear growth trend, with AI-enhanced data loops aiding automakers in rapid algorithm iteration and optimization [1] Group 2: Product Development and Market Trends - The world model is being utilized for behavior prediction and trajectory generation, with productization aimed at OEMs and Tier 1 suppliers [1] - The company emphasized the need for intelligent driving orders to achieve certain sales volumes to realize economies of scale, alongside internal cost control and operational efficiency improvements positively impacting profitability [1] - The implementation of new national standards for two-wheeled vehicles is expected to create new market demands for Jiefa Technology's SoC cockpit products, aligning with leading automakers' overseas expansion needs [1] Group 3: Financial Projections and Growth - Jiefa Technology anticipates a revenue growth of over 12% in 2024, with an additional 3 million sets of basic driving point products and 600,000 sets of cockpit products expected to be secured by Q1 2025 [1] - The company is confident in achieving significant loss reduction by 2025, supported by the successful launch of its fifth-generation SoC product, the AC8025AE [1] - Jiefa Technology's automotive-grade MCU chip AC7870 has been successfully launched, meeting ISO 26262 ASIL-D functional safety standards, applicable across various scenarios [1]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 07:21
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 华为车bu(引望)社招: 端到端模型算法工程师 1. 承担端到端模型的设计、开发、部署和迭代 感知模型算法工程师 1. 承担视觉感知相关的神经网络设计、开发、部署和迭代 4. 承担视觉感知算法的长期研发和迭代 人脸状态监测算法工程师 1. 负责智能驾驶系统,驾驶员和乘客姿态,行为和视线监测算法研发和部署 2. 针对现网问题和用户新需求,快速设计算法方案,解决问题满足客户需求 3. 结合业界算法前沿,推动算法优化迭代,确保算法业界竞争力领先 模型效率优化 1. 承担智能驾驶系统AI模型车端推理效率优化 2. 针对现网问题,优化迭代效率和方案;加速问题解决 3. 结合业界前沿和实际应用问题,推动新算法预研和落地 4. 分析端到端数据分布,均衡和调优 2. 构建AI模型压缩核心算法,设计和构建硬件亲和的模型稀疏、剪枝、蒸馏、量化等压缩能力 3. 紧跟业界前沿模型压缩方案,结合AI模型不断提升模型时延、内存带宽等指标~ 欢迎感兴趣的朋友加入自动驾驶之心知识星球获取联系方式,内部独家招聘信息,简历直达!!! 前面一直在 ...
新股消息 | 斯坦德机器人递表港交所 为全球第五大工业智能移动机器人解决方案提供商
智通财经网· 2025-06-23 22:52
| [編纂]真下 編纂]總數 : [編纂]股田股(視乎[編纂]行使與否而定) | | | | --- | --- | --- | | [編纂]數目 | .. | [編纂]股H股(可予重新分配) | | [编纂]數目 | : | [编纂]股H股(可予重新分配及視乎[编纂] | | 行使與否而定) | | | | 最高[编纂] : | | 每股H股[編纂]港元,另加1%經紀佣金、 | | 0.0027%證監會交易徵費、0.00565%聯交 | | | | 所交易費及0.00015%會財局交易徵費(須 | | | | 於[編纂]時繳足,多繳股款將根據最終 | | | | [编纂]于以退還) | | | | 聞 | | 每股H股人民幣0.10元 | | [譜書] | .. | 【編纂】 | 智通财经APP获悉,据港交所6月23日披露,斯坦德机器人(无锡)股份有限公司(下称:斯坦德机器人)向港交 所主板提交上市申请,中信证券、国泰君安国际为其联席保荐人。 根据灼识咨询的资料,该公司是行业内少数实现自主研发全栈技术的企业之一。该公司是中国工业智能机器 人系统工程的先驱,同时亦是中国首批自主开发适用于工业智能机器人的专有操 ...
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 13:15
Core Viewpoint - The article discusses the challenges and opportunities faced by SenseTime's autonomous driving division, particularly focusing on the competitive landscape and the importance of technological advancements in the industry. Group 1: Company Developments - The head of the world model development for SenseTime's autonomous driving division has left the company, which raises concerns about the future of their cloud technology system and the R-UniAD generative driving solution [2][3]. - SenseTime's autonomous driving division has successfully delivered a mid-tier solution based on the J6M model to GAC Trumpchi, but the mid-tier market is expected to undergo significant upgrades this year [4]. Group 2: Market Dynamics - The mid-tier market will see a shift from highway-based NOA (Navigation on Autopilot) to full urban NOA, which represents a major change in the competitive landscape [4]. - Leading companies are introducing lightweight urban NOA solutions based on high-tier algorithms, targeting chips with around 100 TOPS computing power, which are already being demonstrated to OEM clients [4]. Group 3: High-Tier Strategy - The key focus for SenseTime this year is the one-stage end-to-end solution, which has shown impressive performance and is a requirement for high-tier project tenders from OEMs [5]. - Collaborations with Dongfeng Motor aim for mass production and delivery of the UniAD one-stage end-to-end solution by Q4 2025, marking a critical opportunity for SenseTime to establish a foothold in the high-tier market [5][6]. Group 4: Competitive Landscape - SenseTime's ability to deliver a benchmark project in the high-tier segment is crucial for gaining credibility with OEMs and securing additional projects [6][7]. - The current window of opportunity for SenseTime in the high-tier market is limited, as many models capable of supporting high-tier software and hardware costs are being released this year [6][8].
人形机器人“闹展会”,量产易、应用难
3 6 Ke· 2025-06-20 12:15
当AI大模型以星火燎原之势渗透至千行百业,作为其重要落地载体的具身智能,正以"现实版钢铁侠"的姿态,成为科技展会中"最靓的仔"。 从通信技术中来,往通信世界里去 人形机器人向来是科技展会中最吸睛的存在。 一大早,智元机器人展台早已挤满前来参观的观众。远征A2手持毛笔,一笔一画写着"福"字;灵犀X2不仅用"内心戏"模式与观众互动,还向观众表演了 一段太极拳。这些能力的背后,既有智元对模型架构的创新构建,也少不了通信技术的支持。 智元打造了"本体—小脑—大脑"的软硬件技术架构,让人形机器人实现了运动智能、交互智能和作业智能。"我们将一些基本能力,比如手脚运动,做在 本体和小脑中,使机器人在断网的情况下,也能实现基本操作。"智元机器人首席运营官邱恒告诉《IT时报》记者,"大脑"作为人形机器人智慧的关键, 由云平台+具身算法构建而成,通信技术被运用其中。"有了通信技术的加持,就像给人形机器人配备了一台可以实时获取信息的手机,联网后能获得更 多智慧,一些复杂问题也将交由云端处理,交互就会更加'聪明'。" 具备这些能力后,人形机器人将走进通信场景。智元旗下的远征A2、精灵G1、灵犀X2等多款机器人将进入展厅、营业厅、机房 ...
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网· 2025-06-20 11:54
" 互联网视频数据是唯一可以 scale up 的道路 。 " 作者丨 郭海惟 编辑丨 陈彩娴 作为一名具身大脑的创业者,卢宗青有着金光闪闪的履历: 他是紧随 DeepMind之后,中国新生代的强化学习研究者。北京大学计算机学院长聘副教授,担任过智源 研究院多模态交互研究中心负责人,负责过首个国家自然科学基金委原创探索计划通用智能体项目,还同 时在NeurIPS、ICLR、ICML等机器学习的国际顶级会议担任领域主席。 早在 2023年,他旗下团队便有利用多模态模型研究通用 Agent 的研究尝试,让 Agent 玩《荒野大镖客 2》和办公,使其成为第一个从零开始在AAA级游戏中完成具体任务的 LLM 智能体。相关论文几经波折, 今年终于被 ICML 2025 录用。不过他自述对那份研究其实不够满意,因为"泛化性不足"。 当完成那些研究以后,卢宗青意识到 "当前的多模态模型缺乏与世界交互的能力"。因为模型缺少学习物 理交互的数据,所以 我们看到的那些泛化的能力本质都是 "抽象"的,它终究无法理解动作和世界的关 系,自然也无法预测世界 。 这如今成为他想在具身智能创业的起点:开发一个通用的具身人工智能模型。 卢 ...