DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
机器之心报道 编辑:冷猫、杜伟 前些天,DeepSeek 在发布 DeepSeek V3.1 的文章评论区中,提及了 UE8M0 FP8 的量化设计,声称是针对即将发布的下一代国产芯片设计。 这件事一下引发了巨大反响,不仅是关于新一代国产芯片设计、大模型在国产芯片训练的话题,也顺势引发了大家对大模型量化策略的关注。 FP8,其全称为 8-bit floating point(8 位浮点数),是一种 超低精度 的数据表示格式,相较于 FP32(单精度)或 FP16(半精度)等传统浮点格式,FP8 可以在尽 量保持数值稳定性和模型精度的前提下,进一步降低存储和计算开销(参见机器之心文章: 用FP8训练大模型有多香?微软:比BF16快64%,省42%内存 )。 在英伟达之外,微软、Meta、英特尔、AMD 等也都在研究 FP8 训练与推理,有成为业界「新黄金标准」的趋势。 如今,DeepSeek 采用非主流的 FP8 量化策略,隐隐展现出国产大模型与国产芯片芯片软硬结合的优化策略与英伟达的高兼容策略的不同发展路径。 UE8M0 FP8 具有鲜明的战略意义。DeepSeek 选择在模型端率先采用并公开声明使用 UE8 ...