Workflow
世界模型
icon
Search documents
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
3 6 Ke· 2026-01-14 02:17
还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗? 上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。 那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量 已突破 500 万。 昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。 简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界 是如何运作的:东西掉了会下落,门是可以推开的。 他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动, 才能把这段想象变成现实。 不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。 家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界 ...
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器之心· 2026-01-14 01:39
机器之心编辑部 还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的 家用人形机器人 NEO 吗? 上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。 昨天,1X 公司带着它的全新「大脑」亮相: 1X World Model 。这一次,NEO 似乎准备把「背后的操作员」给解放了。 简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是 如何运作的:东西掉了会下落,门是可以推开的。 他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动, 才能把这段想象变成现实。 不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。 那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量 已突破 500 万。 看来,在经历了 AI 时代各式各样炫酷 Dem ...
全球首个“飞行街景”亮相
Huan Qiu Wang Zi Xun· 2026-01-14 01:35
来源:科技日报 科技日报记者 孙越 实习生 杨佳音 "'飞行街景'首次将世界模型用于普惠生活服务行业,在全球范围内开创了先河。"日前,高德CEO郭宁 在接受科技日报记者采访时表示,高德自研世界模型在国际权威评测基准WorldScore上综合得分位列第 一。 前不久,上线100天的高德扫街榜宣布三大重磅升级,其中"飞行街景"功能备受关注。该功能依托高德 自研世界模型,通过"物理AI"实现沉浸式、可交互的线上探店体验。业内人士指出,这不仅为榜单增添 了新功能,更是"物理AI"应用的典型代表。 什么是"飞行街景"?其背后依托的是高德自研世界模型,通过高拟真数字还原技术,可实现连续、动态 且几乎真实的实景导航与探店体验。借助该功能,用户前往餐厅、景点前就能沉浸式俯瞰其内外部实 景,并提前"实地"体验沿途风景、停车条件乃至餐厅包厢环境等细节。 有网友分享,"飞行街景"能让人沉浸式俯瞰店铺全貌、在线体验靠窗座位,甚至还能查看停车位情况。 除了提升探店体验,"飞行街景"还能带领用户直达深巷中的口碑好店,降低"踩雷"概率。此外,环境可 视化也促使商家更加注重卫生与环境细节,逐步构建更可信的消费场景,最终实现用户与商家的共赢。 ...
探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)
自动驾驶之心· 2026-01-14 00:48
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 论文作者 | Jingyu Li等 编辑 | 自动驾驶之心 复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合完成的新工作 - SGDrive。在这篇工作里面柱哥看到了一些对量产的思考,比如高速直行时应该扩展感 知范围,而转弯时则应聚焦弯道内侧(图6)。 理想的情况下,自动驾驶应该像人类一样,分层次的理解世界:先感知整体环境( Scene Cognition ) → 再聚焦影响自车行为的关键目标( Agent Cognition ) → 最 后形成局部的驾驶目标( Goal Cognition ),并进一步生成Action(轨迹)。但现有的VLM虽然具有强大的认知能力,但作为通用模型,缺乏对驾驶领域的专业理 解,特别是在3D空间和时间维度上难以建立结构化的时空表征。 这篇工作也在探索一个问题: 世界模型到底应该生成什么才能对VLA有效? 生成图像、生成结构化信息,还是生成隐特征? 生成图像会带来冗余的像素信息,预测结 果与当前观察存在大量重叠且缺乏空间信息;生成结构化信息虽有空间维度,但大部分信息仍与自 ...
一个全新的世界模型,终于让AI视频进入了“无限流”时代。
数字生命卡兹克· 2026-01-14 00:23
昨晚夜里快12点,AI视频公司PixVerse毫无预兆的发了一个项目。 PixVerse R1,下一代实时世界生成模型。 这玩意你看文字,可能不是很好理解,我直接放一个官方的demo视频,大家的感觉应该会强一些。 上面是视频,下面是实时输入的Prompt。 整个过程,都是AI一直连续不断的生成视频,你可以在过程中用Prompt修改视频的进程,比如开头第一句Promtp,是士兵躺在雪山上,然后躺着躺着, 你就输入了一个Prompt,说一只黑乌鸦飞过,飞完了以后,这个视频准备自己去做一些决策了自己去演后续的剧情了,你又有了新想法,于是,你又发 了一段Prompt过去: 巡逻队发现了士兵。 每次你输入Prompt延迟2秒左右之后,你会发现,这个世界的剧情,就随着你的不断输入,不断的进行变化。 如果你不给Prompt干涉的话,他会自己一直演下去,最长的时间,在官方的技术报告里,写的是: 无限、连续的视觉流式传输。 PixVerse将其称为,实时世界生成模型。 网址在此:https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-mod ...
对话大晓机器人董事长王晓刚,解码具身智能落地“三部曲”
Sou Hu Cai Jing· 2026-01-14 00:14
每一项成果都精准锚定具身智能核心痛点,得益于大晓机器人构建了一套从"环境式数据采集-开悟世界模型3.0-具身交互"的全链路技术体系,有效解决行业 数据荒、常识差、泛化难和通用性不足等问题。 产学研天团坐镇,11年积淀赋能 去年12月,王晓刚正式入选工信部人形机器人标准化技术委员会,牵头推进我国人形机器人行业标准体系建设。目前看来,具身智能标准体系建设存在哪些 难点?从企业视角转向国家顶层设计视角,看待行业发展有何不同? 过去一年,具身智能及人形机器人领域,既有草根团队投身其中,也有商汤科技这样的头部玩家强势下场。不管哪种力量入局,都绕不开规模化量产与体系 化运营的支撑。 "我们的团队并非尽善尽美,仍有诸多短板亟待补强,要想在这一领域站稳脚跟,需要多维度的综合能力。"商汤科技联合创始人、执行董事、大晓机器人董 事长王晓刚在大晓机器人首场品牌发布会期间,接受《汽车观察》等媒体采访时说道。 这份对综合能力的深耕,正转化为大晓机器人实打实的技术突破与产品落地:率先发布行业首创的ACE具身研发范式、发布首个开源且商业化应用的世界模 型——开悟世界模型3.0、发布具身超级大脑模组A1…… 王晓刚对《汽车观察》强调,人形机 ...
2026十大AI技术趋势:从数字智能迈向物理世界
Sou Hu Cai Jing· 2026-01-13 14:17
Core Insights - The AI industry is transitioning from "single-point capability breakthroughs" to system-level intelligence and real-world applications by 2026 [1][2] - The focus is shifting from parameter scale competition to modeling physical world laws, indicating a paradigm shift in technology [1][2] Group 1: Key Trends in AI Technology - **Trend 1: World Models** AI is beginning to understand the real world, emphasizing the modeling of physical laws, temporal changes, and causal relationships [4][7] - **Trend 2: Embodied Intelligence** Embodied intelligence is moving from demonstration to large-scale application, with humanoid robots set to enter real industrial production and service scenarios by 2026 [9] - **Trend 3: Multi-Agent Systems** AI is evolving from individual agents to collaborative systems, where multiple agents work together to solve complex problems, enhancing efficiency and stability in various fields [10][11] Group 2: AI's Role in Science and Business - **Trend 4: Rise of AI Scientists** AI is transitioning from a research assistant to an active participant in scientific exploration, significantly shortening R&D cycles in fields like materials science and biomedicine [11][12] - **Trend 5: Restructuring of AI Competition** The competition landscape is shifting towards vertical domain value, with companies focusing on industry-specific AI solutions rather than just model parameters [14] - **Trend 6: Recovery of ToB Applications** After a period of disillusionment, enterprise-level AI applications are expected to rebound in the second half of 2026, with measurable commercial value emerging [14][15] Group 3: Data and Infrastructure - **Trend 7: Importance of High-Quality Data** The shortage of high-quality real data is a core bottleneck for AI development, with synthetic data becoming essential for model training [15] - **Trend 8: Optimization of Inference** As model sizes grow, inference costs are a major barrier to AI deployment, with ongoing advancements in inference acceleration and model compression [18] - **Trend 9: Integration of Heterogeneous Computing** The development of a software stack compatible with heterogeneous chips is crucial for breaking computing monopolies and reducing barriers for AI adoption [19] Group 4: AI Safety and Future Directions - **Trend 10: Evolution of AI Safety** AI safety risks are evolving from early "hallucination" issues to more subtle "systemic deception," necessitating a shift towards mechanism-level safety measures [19][21] - **Overall AI Development Stage** By 2026, AI is expected to move beyond parameter competition to a mature development stage characterized by cognitive elevation and infrastructure improvement [21][22] - **Key Characteristics of Future AI** The future of AI will focus on deep understanding of real-world data logic and creating measurable growth and efficiency in complex business scenarios [21][22]
复盘特斯拉FSD进化史:把端到端推向无人驾驶终局
3 6 Ke· 2026-01-13 12:14
编者按: 智能驾驶的发展,并不是一条线性上升的技术曲线,而是一系列技术范式、工程约束与现实场景不断博弈的结果。无图、端到端、世界模型、 VLA……每一种路径,都被寄予厚望,也都在落地过程中逐渐暴露出边界。 随着行业逐渐走出概念验证阶段,单一技术名词已无法解释真实能力差异。算力规模、数据质量、系统架构、工程稳定性,正在共同决定智能 驾驶的上限与下限。 站在工程与产品的交汇点,汽车之心特此策划出"智驾进化论"系列文章,理解不同技术选择背后的现实条件,以期看清技术热词背后的真实进 展,理解这场长期竞赛中的关键变量。 特斯拉 FSD 又在全球秀了波硬核操作。 一辆搭载 FSD V14 的 Model 3,从美国西海岸的洛杉矶出发,驶向了 2732 英里( 约 4400 公里 )外的南卡罗莱纳州。这是一段横穿美国大陆的行程,穿 越 24 个州,跨越沙漠、平原、山地和数不清的高速出入口,并覆盖多种不可预见的天气情况。 整段行程耗时 2 天 20 小时,全程 0 接管。 并线、超车、博弈、进出高速、沿途充电,所有驾驶任务,全部由 FSDV14 完成。 上一次完成类似横跨美国大陆测试的,还要追溯到 2015 年的德尔福。当时 ...
AI小登的尽头,是卖身老登?
Sou Hu Cai Jing· 2026-01-13 03:23
文|明晰野望 最近AI巨头都在释放钞能力。 英伟达以200亿美元和核心团队加盟的模式"收编"AI推理新贵Groq;谷歌豪掷47.5亿美元现金拿下清洁能源巨头Intersect Power,锁定AI数据中心的能源主 权;Meta以45亿美元重金将通用AI智能体Manus纳入版图,打通大模型到落地应用的关键链路。 闪电式的高估值交易密集出现,背后是巨头"老登"与初创公司"小登"的无奈之举——前者需要通过技术路径差异化、场景补齐来提升容错,而势单力薄的后 者,则要把先发优势尽快货币化。或许在2026年,"老登"与"小登"的双向奔赴将成为AI行业主旋律。 "老登"难,"小登"更难 面对行业的疯狂内卷,当今AI的牌桌上已无人轻松,即便是手握千亿美金、掀起全球AI竞赛的OpenAI,也深陷"烧钱黑洞"。根据OpenAI截至2025年7月的统 计,ChatGPT约有3500万的付费用户,这个数字仅占周活跃用户的5%。 行业标杆尚且在商业化的钢丝上摇摇欲坠,散落在牌桌各处的中小AI公司面临的压力更是成倍增长。 "老登"怕"小登"弯道超车、"小登"怕看不见黎明。左右为难之间,双方心照不宣地走到了一起。 另一方面,依靠技术创新起 ...
2025,AI行业发生了什么?
经济观察报· 2026-01-12 11:48
2025年的帷幕已经落下,这一年中,AI行业无疑走过了极具里程碑意义的一程。从技术范式的革 新,到商业逻辑的重构,从产业应用的落地,到全球规则的博弈,这一年既有突破,也留下诸多思 考。 以下文章来源于经济观察报观察家 ,作者经观观察家 经济观察报观察家 . 理性,建设性 AI已经进入"下半场"。技术边界不再只是把模型做得更大、更 久,而是重新定义问题、重塑评估方式、判断未来路径。越来 越多的企业意识到,AI的核心从"解决问题"转向"提出什么问 题、如何衡量进步",而这种能力往往出现在长期浸泡在一线 研究中的年轻技术派身上。 作者:陈永伟 封图:图虫创意 鉴于AI发展错综复杂,这里只能从十个侧面做一个简要回顾。 在设计原生多模态模型的过程中,很多人逐渐意识到:多模态模型的真正瓶颈,并不在于它能不能 看图、听声音,而在于能否把视觉、语言、时间与空间组织成一个可推理、可行动的统一表征。现 在的大模型在语言上已经高度成熟,却依然缺乏对三维空间、物理约束和因果关系的系统理解。因 此,下一代AI的突破重点,可能并不在于再多几个参数,而在于能否构建对真实世界的内部模型, 使其可以在脑中"预演"行动后果。在这种思路之下,"世 ...