生成式模型

Search documents
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 01:18
LangScene-X团队 投稿 量子位 | 公众号 QbitAI 最少只用2张图,AI就能像人类一样理解3D空间了。 ICCV 2025最新中稿的 LangScene-X : 以全新的 生成式框架 ,仅用稀疏视图(最少只用2张图像)就能构建可泛化的3D语言嵌入场景,对比传统方法如NeRF,通常需要20个视 角。 团队一举攻克传统方法依赖密集视图的痛点,更将多模态信息统一在单一模型中,为空间智能领域打开了新大门。 这意味着, 生成式模型能像人类一样,仅凭稀疏视觉输入构建融合语言理解的3D空间认知系统 。 3D语言场景生成的困境 当前3D语言场景生成有以下3个核心困境 : 密集视图依赖与稀疏输入缺失的矛盾 传统方法(如NeRF、Gaussian Splatting)高度依赖校准后的密集视图(通常超过20个视角),当输入视图稀疏(如仅2-3张图像)时,会 出现严重的3D结构伪影和语义合成失真。例如,LangSplat和LangSurf在厨房场景中使用稀疏视图时,物体边界模糊率超过40%,而真实场 景中获取密集视图往往成本高昂。 跨模态信息割裂与3D一致性缺失 外观、几何、语义三类信息通常由独立模块处理,导致模态间 ...
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 13:34
Epona: Autoregressive Diffusion World Model for Autonomous Driving SynthDrive: Scalable Real2Sim2RealSensor Simulation Pipeline for High-Fidelity Asset Generation and Driving DataSynthesis 这次ICCV很热闹啊!ICCV25放榜了,陆续有工作放出。自动驾驶之心也给大家盘点下这次中稿的一些工作! 注:部分工作前期已经来到我们自动驾驶之心知识星球做过分享。更多内容欢迎扫码加入我们的自驾社区,第 一时间掌握所有动态。 【视频+解析】 DriveArena: A Controllable Generative Simulation Platform for Autonomous Driving Boost 3D Reconstruction using Diffusion-based Intrinsic Estimation StableDepth:Scene-Consistent andScale-Invariant Monocu ...
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 09:41
【视频+解析】DriveArena: A Controllable Generative Simulation Platform for Autonomous Driving Boost 3D Reconstruction using Diffusion-based Intrinsic Estimation Epona: Autoregressive Diffusion World Model for Autonomous Driving SynthDrive: Scalable Real2Sim2RealSensor Simulation Pipeline for High-Fidelity Asset Generation and Driving DataSynthesis StableDepth:Scene-Consistent andScale-Invariant Monocular Depth CoopTrack: ExploringEnd-to-End Learning for EfficientCooperative Sequential Perception U-ViLAR: Uncertai ...
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 10:05
整理 | 华卫、核子可乐 在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 Apple Intelligence 功能所开发的语 言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行,包括一个约 3B 参数的紧凑型模型 和一个基于服务器的混合专家模型,后者为专门针对私有云量身定制的全新架构。 这两大基座模型,均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推 理能力,可以理解图像与文本输入,速度更快、效率更高,而且能够支持 15 种语言及平台中集成的 各种智能功能。 据介绍,苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型,将整个模型按 5: 3 的深度比分为两块。块 2 中的所有键值(KV)缓存都直接与块 1 最后一层生成的缓存共享,由此 将键值缓存的内存占用量降低了 38.5%,同时显著改善了首个 token 生成时间(time-to-first- token)。 苹果还引入并行轨道专家混合 (PT-MoE) 设计,为服务器端模型开发出一套新架构。此模型由多 个较小的 Transformer(即「轨道」)组成,它们独立处理各 token,仅在各轨道块的输 ...
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 08:41
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成 。过去三年,该领域的研究呈指数级增 长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。 技术路线 四大生成范式全面解析 早期的 3D 场景生成工作主要通过程序化生成实现。自 2021 年以来,随着生成式模型(尤其是扩散模型)的崛起,以及 NeRF、3D Gaussians 等新型 3D 表征的提 出,该领域进入爆发式增长阶段。方法日益多元,场景建模能力持续提升,也推动了研究论文数量的快速上升。这一趋势凸显出对对该领域进行系统化梳理与全 面评估的迫切需求。 论文标题:3D Scene Generation: A Survey 论文链接:https://arxiv.org/abs/2505.05474 精选列表:https://github.com/hzxie/Awesome-3D-Scene-Generation 在本综述中,研究团队构建了一套系统的技术分类体系,将现有 3D 场景生成方法划分为四大主流范式,每类方法均结合代表性工作进行了深入梳理。 这四大 ...
真有人会爱上ChatGPT?我尝试和AI“交往”一周后发现有些不对劲
Hu Xiu· 2025-05-11 07:02
和 AI 谈恋爱的有很多,但是到谈婚论嫁的程度,还买好了戒指、策划了婚礼的,真是不多见。 | Sün | Sun Club 太阳俱乐部 | News 新闻 | Sport 体育 | | --- | --- | --- | --- | | 泄露的担忧。此外,这些数据可能被用来创建用户的高度个性化档 | | | | | 案,然后可能被用于定向广告或其他目的。 | | | | | Experts suggest several measures to mitigate these risks, such | | | | | as being cautious about the information shared with chatbots | | | | | and understanding the privacy policies of the services used. It is | | | | | also recommended to regularly review and manage privacy | | | | | settings and to be aware of the pote ...