Workflow
手机流畅处理128K长文本,vivo端侧新算法突破内存限制 | ACL 2025
量子位·2025-05-20 05:12

vivo端侧大模型团队 投稿 量子位 | 公众号 QbitAI 在端侧设备上处理长文本常常面临计算和内存瓶颈。 vivo AI研究院 推出的EdgeInfinite算法专为端侧设备设计,让设备处理超长文本时更加高效流畅,该方法能够在不到10GB GPU内存的设 备上处理长达128K tokens的输入。 该研究成果已中稿ACL 2025。 以下是更多详细内容介绍。 EdgeInfinite:解决端侧设备长文本处理的高效算法 端侧LLM在实际应用中会遇到很多长文本输入的场景(例如通话摘要和个人文档总结),但由于端侧设备的资源限制,现有的LLM在部署到 端侧后都无法处理很长的上下文。 这是由于现在LLM都是基于Transformer架构,其计算耗时和内存占用会随着输入长度增加而显著增长,尤其当需要将Transformer类模型 部署到端侧设备上时,面临的挑战会愈发突出。 为了解决这类问题, vivo AI研究院 提出了一种用于端侧设备的长文本算法—— EdgeInfinite ,该算法通过一个可训练的 门控记忆模块 将记忆压缩算法集成到了 Transformer架构 中。 本方法与原生的Transformer架构 ...