文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位·2025-05-13 04:45
港中文MMLab团队 投稿 量子位 | 公众号 QbitAI "先推理、再作答",语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 △ 文生图进入R1时刻:港中文MMLab发布T2I-R1 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要"动脑筋"的事情上面展现出了较 高的水平。 这些模型通过强化学习(RL),先使用全面的思维链(CoT)逐步分析问题,推理后再提供答案。 这种方法大大提高了答案的准确性,很适合用于处理一些复杂问题。 同理,如果能把强化学习应用在图片理解的多模态大模型中(LMMs),像是图片理解或者文生图这样的任务就能解决得更加出色。 想法是好的,但在实际操作中总会碰到一些问题: 比如,该如何将语义和生成结合起来,让语义理解服务于图像生成? 又比如,如何对图像生成的结果进行质量评估,让模型在生成中学习? 目前 CoT推理策略如何应用于自回归的图片生成 领域仍然处于探索阶段,港中文MMLab之前的工作Image Generation ...