OpenAI突然开源新模型,99.9%的权重是0,新稀疏性方法代替MoE
3 6 Ke·2025-12-15 03:29
破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线? OpenAI悄悄开源新模型,仅有0.4B参数,且99.9%的权重为零。 也就是Circuit Sparsity技术的开源实现。 放弃粗糙近似,追求原生稀疏 先说说为啥这个模型的思考过程能像电路图一样好懂。 咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清 它是怎么得出某个结论的。 这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题, 让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话(doge)。 更有人直言这种「极致稀疏+功能解耦」的思路可能会让当下热门的MoE(混合专家模型)走上末路。 而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留 下千分之一的有效通路。 那么,当Transformer的权重被训练到近乎全0 ...