LLaDA

Search documents
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 02:11
机器之心PRO · 会员通讯 Week 23 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 挑战 next token prediction,Diffusion LLM 够格吗? 低成本下的高性能模型,是悖论还是可能? 为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪 些潜在优势?兑现 dLLM 的潜力还需解决什么问题? ... 2. AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么? Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业 该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与 技能重塑? ... 本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。 本期通讯总计 29595 字, ...
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
机器之心报道 编辑:Panda 上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中, Gemini Diffusion 绝对算是最让 人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模 型! Google DeepMind 表示,他们正在使用「扩散」技术来探索新的语言模型方向,从而为用户提供更强大的控制力、创造力和文本生成速度。 从演示效果看,Gemini Diffusion 也确实快 ——「生成速度是我们迄今为止最快模型的五倍,同时还具有相当的编程性能。」 那么,扩散模型为什么会这么快呢?这与其工作原理有关。简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细 化噪声的方式来学习生成输出。这意味着它们不仅可以快速迭代,还能在生成过程中进行纠错。这些特性有助于它们更好地应对编辑等任务,包括在数学和代码 环境中。 用户输入「 Explain what artificial intell ...
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 04:16
机器之心报道 编辑:Panda 近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我 们介绍的这个名叫 LaViDa ,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。 例如,生成一首每行都以特定音节开头的诗歌,或从预定义 JSON 格式的图像中提取结构化信息 —— 这些任务通常需要模型填充或协调整个序列中的内容。即使 使用精心设计的提示词和演示,自回归模型仍然难以稳定地满足此类约束。 近段时间,离散的扩散模型(DM)开始崛起,甚至被许多人认为是自回归 LLM 的一种有力替代,比如我们曾报道过的 首个 8B 扩散大语言模型 LLaDA 、 扩散 推理模型 Dream 7B 以及 首个商业级扩散 LLM Mercury 。 不同于自回归 LLM,扩散模型是将文本生成视为在离散 token 上的扩散过程。会有一个前向过程逐渐将离散文本 token 序列退 ...