清华新框架让大模型学会「精读略读」!实现12倍端到端加速,基准评分翻倍
量子位·2026-02-14 08:13
RAM团队 投稿 量子位 | 公众号 QbitAI 让大模型像人类一样阅读!通过精读略读实现性能与效率的双重飞跃。 在长上下文场景中,Transformer架构的二次计算复杂度让推理速度急剧下降,而人类面对长文档时却能游刃有余——我们不会逐字阅读整本 小说,而是 对关键情节精读,对背景描述略读 。 来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现:现有任务相关的压缩方法不仅陷入效率瓶颈——要么一次性加 载全文 (效率低) ,要么自回归逐步压缩 (速度慢) ,更难以兼顾"保留关键信息"与"保持自然语言可解释性"。 受人类阅读认知启发,他们提出全新框架RAM (Read As HuMan) ,首次将 "精读+略读" 的混合策略引入上下文压缩,不仅在多个长文 本基准上取得卓越表现,更在平均1.6万token的输入上实现 12倍端到端加速 。 像人类一样阅读:精读重要内容,略读背景内容 研究团队从认知科学中汲取灵感:人类阅读时会动态分配注意力——对与目标高度相关的内容进行 精读 (close reading) ,保留全部语义 细节;对次要背景信息采用 略读 (skimming) ,快速提取核心语义。 ...