Workflow
BitNet Distillation(BitDistill)
icon
Search documents
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
量子位· 2025-10-20 03:46
该框架在4B及以下的Qwen、Gemma上已被证实有效,理论上可用于其他Transformer模型。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 1.58bit量化,内存仅需1/10,但表现不输FP16? 微软最新推出的蒸馏框架 BitNet Distillation (简称BitDistill),实现了几乎无性能损失的模型量化。 同等硬件性能下,使用该方法量化后的 推理速度提升2.65倍,内存消耗仅1/10 。 网友看了之后表示,如此一来昂贵的GPU将不再是必需品,英伟达的好日子要到头了。 BitDistill框架设计 BitDistill包含三个依次衔接的阶段,分别是 模型结构优化 (Modeling Refinement)、 继续预训练 (Continue Pre-training)和 蒸馏式微 调 (Distillation-based Fine-tuning)。 建模结构优化的主要目标是为1.58-bit模型训练提供结构层面的支持,缓解低精度训练中常见的优化不稳定问题。 在传统的全精度Transformer模型中,隐藏状态的方差通常在预训练时已被良好控制。然而,当模型被压缩到极低位宽(如 ...