Workflow
多阶段量化方法
icon
Search documents
深度好文 | 聊聊 MoE 模型的量化
自动驾驶之心· 2025-07-26 13:30
作者 | 刀刀宁 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1929499400977256981 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨 询 众所周不知, MoE 模型由于内存和计算开销较大,在部署时面临巨大挑战主要就是非常高的显存需求。 简单说就是,放不下。 但是,又不用都算。 前面我们的几篇笔记都是在解决这个问题,如 笔记:ktransformer/llama.cpp/vllm + int4 671B DeepSee...笔 记:聊聊 MoE 负载调度笔记:再聊 MoE 中的异构资源调度 等,大部分是通过 GPU CPU 协同工作来推动 MoE 模型在资源受限设备上的卸载部署方法。但是卸载方法的运算速度瓶颈就很受限于 CPU。所以还有另 一个思路就是 量化 ,本质上是压缩技术,以降低内存和计算需求。 MoE 模型在 4 位 ...