首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升
3 6 Ke·2026-02-27 02:33

图像生成用RL已经打出了漂亮的成绩单,那3D生成呢? 当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被 CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性 探索。 核心矛盾在于:3D对象没有「标准视角」。一张图对不对,人一眼就能看出来;但一个3D物体,需要从多个视角同时评估几何一致性、纹理质感与语义 对齐——任何一个维度设计不当,训练就会崩。 更深层的问题是,3D生成模型在自回归解码时,每一个token都携带着对整体结构的隐式承诺。这种长程依赖让奖励信号的稀疏性问题在3D中比2D更加突 出——模型很难在中途感知到哪里出了问题。 研究团队将这个问题拆成四个维度系统研究: 奖励模型怎么设计——哪类奖励信号对3D生成最有效? RL算法怎么选——GRPO的哪些变体适合3D的序列特性? 为什么3D比2D难得多? RL在文本、图像生成上屡试不爽,但直接搬到3D行不通。 最出人意料的发现:通用大模型(Qwen2.5-VL)评估3D一致性,比专用模 ...