TwiG
Search documents
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
3 6 Ke· 2025-12-22 08:12
在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能 生成极其逼真的画面 。 但当你要求模型处理复杂的空间关系、多物体交互或精准的数量控制时,它们往往会"露怯":不是把猫 画到了窗户外面,就是把三个苹果画成了四个。 为了解决这个问题,学术界此前主要有两条路: 一条是"谋定而后动"(Think-before-Generation),即在画第一笔之前,先写好详细的布局计划。但这 就像让画家在动笔前必须把每一笔都想得清清楚楚,一旦开画就无法更改,缺乏灵活性。 另一条是"亡羊补牢"(Think-after-Generation),即先把图画完,再通过多轮对话来挑错、修改。这虽 然有效,但往往意味着巨大的推理开销和漫长的等待时间。 那么,有没有一种方法,能让模型像人类画家一样,在作画的过程中停下来看一眼,既能审视刚才画得 对不对,又能为下一笔做好规划? 近日,来自香港中文大学、美团等机构的研究团队提出了一种全新的范式——Thinking-while- Generating(TwiG)。这是首个在单一生成轨迹中、以局部区域为粒度,将文本推理与视觉生成深度 交织( ...