微软1bit LLM新研究:原生4bit激活值量化,可充分利用新一代GPU对4bit计算的原生支持
量子位·2025-04-29 06:03
发布 BitNet v2 框架,为1 bit LLM实现了 原生4 bit激活值量化 ,由此可充分利用新一代GPU (如GB200) 对4 bit计算的原生支持能 力。 同时减少内存带宽& 提升计算效率 。 西风 发自 凹非寺 量子位 | 公众号 QbitAI 微软又有"1 bit LLM"新成果了—— 之前, 微软持续研究BitNet b1.58 ,把LLM的权重量化到1.58-bit,显著降低延迟、内存占用等推理成本。 然鹅BitNet b1.58 激活值还是8-bit ,这就导致没办法充分利用新一代硬件的4 bit计算能力,计算环节出现效率瓶颈。 还有个问题也很关键: 研究发现注意力层和前馈网络层的输入激活值分布还比较接近高斯分布,量化起来相对容易。 但 中间状态的激活值有很多异常值 ,这就给低bit量化带来了很大阻碍。 此前的BitNet a4.8相关研究,尝试过用4 bit量化输入,8 bit稀疏化处理中间状态。 这种方法虽然性能损失不大,可稀疏化在批量推理场景里不太适合用来提高吞吐量,因为硬件更适合密集计算。 这次,团队最新推出了BitNet v2,通过引入 H- BitLinear模 块 ,该模 ...