预训练的自回归大型语言模型

Search documents
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
机器之心· 2025-07-24 04:08
近年来,语言模型的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性。 在这种自回归的训练框架中,每一个 token 都作为其前文上下文的预测目标。 这一方法无需显式标注,使得自回归模型在训练阶段具有明显优势,因而成为主流范式。 机器之心报道 机器之心编辑部 然而,在推理阶段, 自回归生成本 质上是顺 序执行的 ,计算开销大,因为每一步解码都需要完整地运行一次模型。相比之下,人类在表达时常常会先 在句子层 面组织 思路 ,再逐词输出。 那么在大模型推理阶段,能否让大模型摆脱单个 token 顺序预测的瓶颈,也和人类的逻辑一样,从更大层面考虑输出内容呢? 假如能够打破自回归模型的顺序执行本质,就产生了如网友所说的 「具有时间跳跃能力的 LLM」 。 受到启发,苹果的研究人员为此展开思考,借助类似策略,开发了一个框架,使预训练的自回归大型语言模型能够执行 多 token 预测 ,在保持生成质量的同时, 为代码和数学任务提供 高达 5.35 倍的推理加速 ,以及为一般任务提供 约 2.5 倍的推理加速 。 AI 工程师 Jackson Atkins 认为这是一项具有开创性的工作,「最令人兴奋的是这 ...