2D图像作中介，零训练实现3D场景生成SOTA：英伟达&康奈尔提出文本驱动新流程

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生，导师为 Abe Davis 教授和 Noah Snavely 教授，研究方向专注于生成式 AI 与多模态大模型。本项目为作者在英伟达实习期间完成的工作。想象一下，你是一位游戏设计师，正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷... 传统工作流程中，这可能需要数周时间：先手工建模每个 3D 资产，再逐个调整位置和材质，最后反复测试光照效果…… 总之就是一个字，难。核心贡献：无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全无需额外训练的自动化流水线，将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步： 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图，因为它能同时呈现物体的长、宽、高信息，且不受场景位置影响。相比直接生成 3D，这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...