Workflow
扩散语言模型(dLLMs)
icon
Search documents
四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷
量子位· 2025-07-23 04:10
DIJA团队 投稿 量子位 | 公众号 QbitAI 答案是:不能。 在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中,来自上海交通大学, 上海人工智能 实验室和中山大学的研究团队指出: 当前扩散语言模型存在根本性架构安全缺陷,在某些攻击场景下,几乎毫无防御能力。 他们提出的DIJA攻击框架,不需要训练,也不需要改写模型参数,就能令多个dLLMs大概率生成有害、非法、违规内容。这项研究不仅击穿 了扩散语言模型的"对齐护盾",也正式拉开了dLLMs 安全研究时代的序幕。 扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一 个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互 式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场 潜藏的安全危机 正在酝酿:能否继续沿用自回归 ...