token pruning - filings, earnings calls, financial reports, news - Reportify

token pruning

Search documents

NeurIPS'25！AutoPrune：即插即用的自适应大模型剪枝框架

自动驾驶之心· 2025-10-07 07:46

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Hanshi Wang等编辑 | 自动驾驶之心先前大模型轻量化的token pruning论文主要集中在token的重要性度量metric上，但是实验发现其实还是最基础简单的几个算法更加通用，所以本文从另一个维度考虑这个问题：在设定的budget下，如何给网络每一层分配pruning的比例。现有方法通常是设置了固定的layer-wise allocation策略，要么在decoder最前面直接剪完，要么手工固定某几层设置比例，但是很明显这不是最优解，因为输入问题和场景的难度不同，token注意力集中的速度也不一样。针对上述问题，上交和中科院的团队提出了 AutoPrune，一种training free的复杂度自适应剪枝框架。本文提出的算法用decoder浅层的视觉与文本互信息度量样本与任务难度，然后将该数字映射为受budget(全局计算量预算)约束的 Logistic 保留曲线，从而对每个样本生成层间视觉token数量保留轨迹， ...

Complexity-Adaptive Pruning

Artificial Intelligence

Complexity-Adaptive Pruning

Artificial Intelligence