ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心·2025-07-16 04:21
本文第一作者密振兴,香港科技大学计算机科学与技术学院人工智能方向博士生,研究方向是多模态理解与生成,3D/4D 重建与生成,目前正在寻找工业 界全职职位或实习职位。 自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的 文字或图片提示作图,缺乏真正 读懂图像与文本、在多模 态上下文中推理并创作 的能力。 能否让模型像人类一样真正读懂图像与文本、完成多模态推理 与创作 ,一直是学术界和工业界关注的热门问题。 OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大规模参数和海量数据,展示了强大的多模态推理与生成能力。但在学术与产业 环境中算力和数据并不充裕时,用 较少数据与计算资源 实现类似的功能,依然是一道难题。 在顶级学术会议 ICML2025 上,香港科技大学联合 Snap Research 提出了多模态理解与生成新方法: ThinkDiff 。该方法仅需较少的图文对和数小时训 练,就能让扩散模型具备思考能力,使其在复杂 ...