Workflow
PromptEnhancer框架
icon
Search documents
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
量子位· 2025-09-17 01:42
如今, 腾讯混元团队开源的PromptEnhancer框架 ,为这一难题提供了解决方案。 腾讯混元团队 投稿 量子位 | 公众号 QbitAI AI绘画总"画不对",让创作者一再崩溃。 无需修改任何预训练T2I模型的权重,仅通过 " 思维链(CoT)提示重写 " 这一简单思路,就能让AI绘画的文本-图像对齐精度大幅提升。 在抽象关系理解、数值约束等复杂场景中,准确率甚至能提升17%以上。 同时,为了助力研究人员进一步深入探索提示优化技术,腾讯混元团队同步开源了一个全新的高质量人类偏好基准测试数据集。 该数据集围绕复杂场景构建,包含大量标注数据,不仅为PromptEnhancer的训练与评估提供了有力支撑,更为相关研究领域提供了重要参 考。 核心创新:两大模块破解 "理解难题",实现 "即插即用" 优化 近年来,从Stable Diffusion、Imagen到HunyuanDiT、Flux,T2I扩散模型已能生成超写实、风格多样的图像,但它们对 "人类指令" 的解读 能力,仍存在明显短板。 腾讯混元团队在研究中发现,T2I模型的核心问题集中在三大领域: 这些问题的根源,在于用户输入的简洁指令与模型需要的 "精 ...