Workflow
计算机行业定期报告:Deepseek发布全新注意力机制NSA
Huafu Securities·2025-02-23 09:28

计算机 2025 年 02 月 23 日 行 业 研 究 计算机 Deepseek 发布全新注意力机制 NSA 投资要点: Deepseek 发布全新注意力机制 NSA 行 业 定 期 报 告 NSA(硬件优化稀疏注意力机制)由 Deepseek、北京大学和华盛顿大 学联合提出,旨在解决传统注意力机制在长上下文、多轮对话等场景下的 性能瓶颈。其创新性在于通过三并行分支架构(Token 压缩、Token 选 择、滑动窗口)结合可学习门控机制,动态平衡全局与局部注意力:压缩 分支粗粒度捕捉全局信息,选择分支筛选关键稀疏单元以减少计算量,滑 动窗口则保留局部语法与语义连贯性;硬件层面基于 Triton 框架优化内存 访问,通过组共享 KV 数据、高带宽 HBM 与片上 SRAM 协同计算,显著 提升稀疏计算效率。该技术实现了推理速度与精度的平衡,适用于大语言 模型加速、长文档理解等需要高效长程依赖建模的场景。 本周 AI 数据更新: 海外应用看,20250214-20250220 期间,Chatgpt 下载量逐步回升, Gemini、Perplexity 和 Claude 整体保持稳定。 国内应用看,202 ...