腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 "降本增效" 的行业共识下,从量化、剪枝到模型蒸馏,各类压 缩技术竞相涌现,但往往难以兼顾性能损耗与通用性。 在此背景下, 投机采样 作为一种 "另辟蹊径" 的推理加速范式,正凭借其近乎无损的加速效果成为业界新宠。腾讯混元近日升级的 AngelSlim 训练框架 ,首次将这 一技术的潜力拓展至 LLM、VLM 及语音的全模态场景,实现了从 "可加速" 到 "善加速" 的关键跃迁。其核心在于独创的 Eagle3 训练架构 ,通过让小模型学会 "前 瞻性" 地为大模型起草多步候选 token,再由大模型并行验证,一举将大模型解码阶段的算力冗余转化为提速动能,实测最高可带来 1.9 倍的推理速度飙升 。这不仅 是一次技术升级,更是对下一代高效推理基础设施的重要定义,为多模态 AI 应用的实时化、普惠化铺平了道路。 一、AngelSlim + 投机采样 投机采样是一种通过 小模型多步预测 + 大模型一步验证 的推理加速技术,其核心思想是:使用一个轻量级的草稿模型生成多个候选 token,由目标模型对候选结果 进行并行验证是否接受 ...