GoT框架

Search documents
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 06:50
当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍 面临挑战。 针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。 该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略 。 GoT 和 GoT-R1 已全面开源。 GoT 框架首先通过引入显式的语言推理过程,在生成图像前对语义内容和空间布局进行规划,从而提升了生成图像的准确性和可控性 。然而,GoT 的推理能力主 要源于基于人工定义模板的监督微调数据,这在一定程度上限制了模型自主发现更优推理策略的潜力,有时可能导致生成的推理链条未能完全忠实于用户复杂的 文本提示 。 GoT-R1 的提出,旨在克服上述局限。它将强化学习(RL)创新性地应用于视觉生成的语义 - 空间推理过程,赋予模型自主学习和优化推理路径的能力。 强化学习训练前 ...