token pruning

Search documents
NeurIPS'25!AutoPrune:即插即用的自适应大模型剪枝框架
自动驾驶之心· 2025-10-07 07:46
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Hanshi Wang等 编辑 | 自动驾驶之心 先前大模型轻量化的token pruning论文主要集中在token的重要性度量metric上,但是实验发现其实还是最基础简单的几个算法更加通用,所以本文从另一个 维度考虑这个问题:在设定的budget下,如何给网络每一层分配pruning的比例。 现有方法通常是设置了固定的layer-wise allocation策略,要么在decoder最前面直接剪完,要么手工固定某几层设置比例,但是很明显这不是最优解,因为输 入问题和场景的难度不同,token注意力集中的速度也不一样。 针对上述问题,上交和中科院的团队提出了 AutoPrune,一种training free的复杂度自适应剪枝框架。本文提出的算法用decoder浅层的视觉与文本互信息度量 样本与任务难度,然后将该数字映射为受budget(全局计算量预算)约束的 Logistic 保留曲线,从而对每个样本生成层间视觉token数量保留轨迹, ...