Workflow
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
机器之心·2025-06-12 03:23

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为 作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透 明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个 字,难。 核心贡献:无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全 无需额外训练 的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步: 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直 接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。 这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...