Workflow
模型自蒸馏
icon
Search documents
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了
机器之心· 2025-12-23 04:15
为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵? 为什么 Claude 能 "吞下整本书",但官方示例往往只展示几千字的文档? 为什么所有大模型厂商都在卷 "更长上下文",而真正做落地的产品经理却天天琢磨 "怎么把用户输入变短"? 这些看似矛盾的现象,其实答案藏在一个长期被技术光环遮掩的真相里: 长序列,正在成为大模型应用里最昂贵的奢侈品 。 在当前主流的 Full Attention 机制下,计算开销会随着输入长度平方增长,序列一长,处理就变得 "又贵又慢"(见图 1)。针对这一核心难题,阿里 RTP-LLM 团队 提出了一种全新的后训练压缩方案: RTPurbo 。在不损失模型效果的前提下,实现了 Attention 计算 5 倍 压缩(见图 2)。 左图 1 :长序列 Attention 计算成本瓶颈;右图 2 : RTPurbo 极大降低 Attention 计算开销 总的来说, RTPurbo 采用了一种 非侵入式的压缩方法 :通过分辨 LLM 内部的长程 Attention Head,仅保留关键 Head 的全局信息,对于剩下冗余的 Head 直接丢弃 远程 Tokens ...