扩散语言模型

Search documents
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...