大语言模型长文本推理

Search documents
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 06:50
作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向 为高效大语言模型推理与自动定理证明。担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。个人主页: https://menik1126.github.io/ 引言:大模型长文本推理的瓶颈与突破 随着大语言模型(LLMs)能力日益提升,AI 对超长文本的理解和处理需求也变得前所未有地重要。然而,目前主流 LLM 虽然依赖旋转位置编码(RoPE)等机 制,在训练阶段能高效处理 4K-8K tokens 级别的上下文,但一旦推理阶段外推遇到如 128K 以上长度的长文本时,模型往往受到显存瓶颈的限制和注意力下沉 (attention sink) 等问题影响,采用常规的文本截断方案容易出现信息遗失,这极大限制了大模型在实际场景中的应用拓展。 业界目前尝试的处理长文本的高效推理主要的瓶颈有两个, 一个是位置编码的长度外推, 再一个是长度外推中的内存瓶颈。 目前的位置编码包括两类:一是基于频率区分的 NTK 插值方 ...