Workflow
dllm)
icon
Search documents
扩散语言模型深度思考
机器之心· 2026-02-08 10:37
以下文章来源于精博士小酒馆 ,作者王云鹤 写这个的时候,其实我脑子里第一反应是好多年以前某位领导问过我, transformer的下一跳是什么? 我当时 的回复是transformer是一个量变到质变长期积累得到的范式,很早期的视觉里面也有类似的nonlocal等,而且 卷积也在跟attention持续互补发挥作用。 diffusion本身也不算transformer的下一条,但是从建模方式上,可能 有潜力会对ar带来很大冲击。 很早就关注扩散语言模型了(diffusion language model,dllm),但是受限于精力和算力一直没机会深度思 考。从文本角度探索diffusion的架构相对当前比较好入手,并且这里面很多问题不解决,多模态的版本也不好 搞,所以我们会先聚焦dllm上的算法基础。 去年下半年陆陆续续开始在一些方向上有一些探索,受启发于某位内部专家,赶在元旦之前写了一篇算是洞察 材料的文章。 前几天在AAAI的报告重点介绍了团队的几个工作,包含next-block diffusion的训练,diffusion in diffusion的分 层结构,diffusion agent等。 相关P ...