Workflow
世界模型
icon
Search documents
星尘智能来杰:具身智能 “超级助理” 如何走进真实世界? | Deep Talk
锦秋集· 2025-06-11 12:22
"想象一下,一位顶尖科学家能驱使100个机器人助手,将数年的实验周期压缩到一周;一位五星级大厨的独门厨艺被完美数字化,通过家中的机器人,让每个人都 能品尝到大师级的菜肴。" 这并非科幻电影的遥远构想,而是星尘智能创始人来杰为具身智能描绘的蓝图。 拥有近16年的机器人研发经验,曾是百度小度机器人和腾讯Robotics X实验室的核心初创成员,来杰对具身智能技术、社会与产品的深刻预判。 当行业主流仍在探讨机器人将"替代"哪些岗位时,来杰的想法却并完全相同。创造全新的"增量市场",才是他认为具身智能最具想象力的地方。如今,来杰和他创 办的具身智能公司星尘智能,正努力让机器人成为放大人类智慧与创造力的"超级助理"。 对智能的不同理解,自然也催生了非主流的数据策略。 当许多人陷入数据军备竞赛的焦虑时,星尘的目标并非无止境地堆砌数据,而是通过提升模型的"迁移能力",让数据采集的效率呈指数级增长。他们相信,掌握了 学习的共性,未来完成一个新任务所需的数据量将从一千条锐减到二十条,从而摆脱对蛮力式数据采集的依赖。 最终,这些关于硬件、智能和数据的思考,都汇集到了一个可被清晰感知的"快慢脑"模型架构中。来杰指出,当许多模型将此 ...
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 08:39
作者 | 华卫 今年的智源大会上,智源研究院推出全新的"悟界"系列大模型,其中包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS2.0 与具身大 脑 RoboBrain2.0 以及全原子微观生命模型 OpenComplex2。 据介绍,Emu3 作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于则 Emu3 架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。在初代版本 的基础上,RoboOS2.0 与 RoboBrain2.0 的原有性能有大幅提升,并新增多机协作规划与物理常识 驱动的空间推理能力。OpenComplex2 可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微 观构象波动与宏观生物功能的跨尺度关联。 "大模型技术还远没有到发展的尽头。"在大会前夕,智源研究院长王仲远向我们透露了这一系列新模 型背后的技术思考与智源当下的战略布局。 王仲远指出,去年智源就对大模型的技术路线进行了预判,会从大语言模型往多模态、尤其是原生多 模态世界模型的方向发展。当前,智源的工作布局都是围绕这一技术发 ...
医学领域也有世界模型了:精准模拟肿瘤演化,还能规划治疗方案
量子位· 2025-06-11 05:13
MeWM团队 投稿 量子位 | 公众号 QbitAI 医学领域,也有自己的世界模型了。 来自香港科技大学(广州)、约翰霍普金斯大学等机构的学者联合提出了提出 医学世界模型 (Medical World Model, MeWM) ,赋予了 AI"预演"疾病发展的能力。 MeWM可以 基于临床治疗决策,模拟未来肿瘤演化过程 ,可以为个性化治疗提供可视化、可评估、可优化的辅助。 初始阶段会并行生成B个治疗组合 (称为protocol beams) ,覆盖不同策略空间。 随后, 动态模型 (Dynamics Model) 会针对每个候选方案,利用3D条件扩散模型模拟治疗后肿瘤形态,逐步构建方案执行轨迹。生成的 每一组术后肿瘤候选将交由启发式函数评估。 在这一过程当中, 逆动态模型 (Inverse Dynamics Model) 还会在每一步中对所有候选肿瘤图像进行生存风险的打分。 基于启发式函数输出风险值,并动态替换掉风险最高的beam方案,从而实现低风险方案的优先保留与高风险方案的迭代优化。 具体来说,MeWM主要有三大核心功能: 什么是医学世界模型? MeWM引入了世界模型 (WM) 的理念,构建了"观察–模拟 ...
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 02:59
以下文章来源于自动驾驶之心 ,作者Anthony Chen等 自动驾驶之心 . 在TOP2 翻阅的数十篇理想论文中,这是第一次论文作者出现了非大陆拼音名,分别为Anthony Chen和Kurt Keutzer。 论文核心4点突破: 几何条件驱动:用3D渲染替代数值控制信号,解决动作漂移问题。 动态编辑机制:在静态点云中注入可控运动,平衡效率与灵活性。 最小化训练代价:冻结主干模型 + 轻量化适配器,实现数据高效训练。 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向! 2025年5月28日北大&理想&伯克利 发布GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control。 Anthony Chen,Wenzhao Zheng, Yida Wang为同等贡献,Shanghang Zhang为通讯作者。 Anthony Chen同时是北大和理想的,Wenzhao Zheng是伯克利的,Yida Wang 是理想的。Shanghang Zh ...
Z Potentials|专访陈羽北,Aizip打破效率瓶颈,让AI进入真实产品,推动On-Device AI的未来革命
Z Potentials· 2025-06-11 02:21
在当今 AI 行业,技术的迭代速度与应用的广泛程度正在以前所未有的方式深刻改变着我们的生活。从早期的基础算法研究到如今的智能硬件应用, AI 的 革命已悄然展开,然而,尽管 AI 潜力巨大,其高昂的能耗、庞大的模型和复杂的学习机制仍是行业亟待突破的难题。在这种背景下,致力于突破 AI 效率 瓶颈的创新型公司正引领着一股变革潮流。 在本期的专访中,我们有幸邀请到了 Aizip 的联合创始人陈羽北。 Aizip 作为一家专注于 On-Device AI 模型的创新公司,凭借其高效、紧凑的 AI 模型和 跨领域技术突破,正在推动 AI 技术在硬件设备上的广泛应用 。 Aizip 在多模态感知、语言推理及行为控制等领域取得的成绩,不仅为智能设备带来了更高 效的性能,还使得 AI 融入我们的日常生活成为可能。 在这场对话中,我们将一同探讨陈羽北如何突破传统 AI 模型的效率瓶颈、如何构建具有全球竞争力 的 AI 产品,并深入了解他如何通过 Aizip 实现将 AI 技术从学术研究转化为商业化应用的宏大愿景。让我们一起走进这场精彩的对话! 01 长期研究 AI ,期望提升 AI 能量效率、模型效率及学习效率 ZP: 请先 ...
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 08:41
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成 。过去三年,该领域的研究呈指数级增 长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。 技术路线 四大生成范式全面解析 早期的 3D 场景生成工作主要通过程序化生成实现。自 2021 年以来,随着生成式模型(尤其是扩散模型)的崛起,以及 NeRF、3D Gaussians 等新型 3D 表征的提 出,该领域进入爆发式增长阶段。方法日益多元,场景建模能力持续提升,也推动了研究论文数量的快速上升。这一趋势凸显出对对该领域进行系统化梳理与全 面评估的迫切需求。 论文标题:3D Scene Generation: A Survey 论文链接:https://arxiv.org/abs/2505.05474 精选列表:https://github.com/hzxie/Awesome-3D-Scene-Generation 在本综述中,研究团队构建了一套系统的技术分类体系,将现有 3D 场景生成方法划分为四大主流范式,每类方法均结合代表性工作进行了深入梳理。 这四大 ...
让你的公司像大脑一样思考、连接与成长
3 6 Ke· 2025-06-09 11:51
企业和大脑一样——能否成功,关键在于预测。 大脑的任务不是完美控制,而是不断修正认知,最小化意外。企业亦如此。那些在市场中胜出的公司, 并不是最聪明的,而是拥有最准确"世界模型"、能快速适应变化的组织。 如果你的公司还在用僵化的流程和KPI试图"管控未来",那就像用算盘应对高频交易的市场。唯有像神 经网络一样,让组织结构具备联通性、适应性和实时反馈机制,才能真正在复杂世界中减少意外、提升 绩效。 接下来,我们将带你重新理解企业设计的底层逻辑——从神经启发到组织物理学,如何训练你的公司 像"大脑"一样预测、学习并持续进化。 是供应链突然中断?客户流失?还是团队内耗导致项目崩盘? 每个领导者都曾遇到过这样的瞬间:原本预期顺利推进的事情,突然偏离轨道。更糟的是,我们往往是 在结果出来之后,才意识到哪里出了问题。而这种"事后才知"的反应机制,正是组织失效的症结所在。 比如,每天早上你去端一杯咖啡时,大脑会自动预测:你伸手握住杯子,杯子靠近嘴唇,然后尝到咖啡 的味道。但如果你没拿稳,咖啡洒了,大脑就会立刻记录这次"失败",下次尝试更稳妥的动作。你可能 会换一只好握的杯子,或者喝之前先确认杯子的位置。每次意外,都是大脑在 ...
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
量子位· 2025-06-09 09:27
一水 发自 凹非寺 量子位 | 公众号 QbitAI 因为眼睛受伤暂时失去立体视觉,李飞飞更加坚定了做世界模型的决心。 值得一提的是,嘉宾们深入浅出的讲解方式也获得了网友一致好评: 在a16z的最新播客节目中,"AI教母"李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历: 尽管凭借多年经验能想象出三维世界,但一只眼睛看东西时,我开始害怕开车。 但作为一名科学家,她也把这次经历当成一次宝贵的"实验"机会。 这次生病让她明白了 立体视觉对空间交互具有决定性作用 ,"就像语言模型处理文本时需要理解上下文,物理世界的交互也必须建立在三维 空间表征基础上"。 整体而言,李飞飞在节目中解释了 为什么空间智能是当今AI系统关键且缺失的部分,以及她的新公司如何应对这一挑战 。 同时,另一位嘉宾Martin Casado ( a16z合伙人、李飞飞公司早期投资者) 也分享了二人在世界模型上达成共识的故事, 并从投资者的角 度分析了世界模型的潜力和价值。 省流版如下: 下面具体来看。 构建能真正理解物理世界的AI模型 李飞飞自述,其实早在大语言模型 (LLM) 兴起之前,她就深刻意识到了构建世界模型 (LWM) 的重要性 ...
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道记者孔海丽 北京报道 2025年智源大会上,人形机器人不再是吉祥物,被"围堵"的人从杨植麟变成了王兴兴。 这一年,AI进展迅猛,迭代周期甚至少于3个月,且不再局限于大语言模型,而是转化为人形机器人训 练、落地的强辅助。 "人工智能正在加速从数字世界走向物理世界。"智源研究院院长王仲远在接受包括21世纪经济报道在内 的记者采访时直言:"人工智能应该为世界做一些实实在在的事情,帮助人类摆脱繁琐的、重复的以及 简单的劳动。" AI技术路线转向世界模型 "大模型技术还远没有到发展的尽头,过往所说的'百模大战'更多是大语言模型的竞争,而大语言模型 受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前。"在王仲远看来,大 语言模型性能提升瓶颈的解法主要包括三个方面,一是强化学习优化推理能力,二是合成高质量数据替 代人类标注,三是激活海量未充分利用的多模态数据,多模态数据的规模可达文本的"百倍乃至万倍"。 在智源研究院的判断中,大模型的技术路线会从大语言模型往多模态尤其是原生多模态世界模型的方向 发展。原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交 互。 ...
模型持续进步,世界模型概念逐步成型
Guolian Securities· 2025-06-08 10:25
Investment Rating - Investment recommendation: Outperform the market (maintained) [8] Core Insights - The AI is transitioning from the "human data era" to the "experience era," as highlighted by Richard Sutton, the 2024 ACM Turing Award winner. Current AI large model training relies on human-generated data, but the depletion of high-quality data necessitates a shift towards interaction with the world [5][9] - The evolution of large models is predicted to progress from large language models to native models and eventually to world models, with a distinction between digital and physical worlds in AGI development [10] - The capabilities of large models are continuously improving, with major companies like OpenAI and Google regularly updating their models. However, practical applications in real-world scenarios remain limited, indicating a focus on enhancing AI's problem-solving abilities through interaction with the physical world [11] Summary by Sections AI Technology Progress - AI technology advancements are expected to create investment opportunities across four areas: 1. Infrastructure for computing power, with a focus on domestic GPU ecosystems [12] 2. Software development for edge AI applications, emphasizing the importance of end-user devices [12] 3. Innovations in productivity tools, which could lower professional barriers and reduce repetitive tasks [12] 4. Information technology innovations in industries like finance, law, education, healthcare, and automotive, with key players connecting foundational model providers and industry clients [12]