手机流畅处理128K长文本，vivo端侧新算法突破内存限制

vivo端侧大模型团队投稿量子位 | 公众号 QbitAI 在端侧设备上处理长文本常常面临计算和内存瓶颈。 vivo AI研究院推出的EdgeInfinite算法专为端侧设备设计，让设备处理超长文本时更加高效流畅，该方法能够在不到10GB GPU内存的设备上处理长达128K tokens的输入。该研究成果已中稿ACL 2025。以下是更多详细内容介绍。 EdgeInfinite:解决端侧设备长文本处理的高效算法端侧LLM在实际应用中会遇到很多长文本输入的场景（例如通话摘要和个人文档总结），但由于端侧设备的资源限制，现有的LLM在部署到端侧后都无法处理很长的上下文。这是由于现在LLM都是基于Transformer架构，其计算耗时和内存占用会随着输入长度增加而显著增长，尤其当需要将Transformer类模型部署到端侧设备上时，面临的挑战会愈发突出。为了解决这类问题， vivo AI研究院提出了一种用于端侧设备的长文本算法—— EdgeInfinite ，该算法通过一个可训练的门控记忆模块将记忆压缩算法集成到了 Transformer架构中。本方法与原生的Transformer架构 ...