OpenAI又开源了,仅0.4B,给模型大瘦身
3 6 Ke·2025-12-15 08:14
有外网网友称这一技术让当下的MoE(混合专家模型)走到了尽头,并说"我们一直以来都将权重隔离到'专家'中,以此粗略地近似稀疏性, 仅仅是为了满足稠密矩阵核的要求。" 智东西12月15日报道,昨天,OpenAI开源新模型Circuit-Sparsity,模型参数量仅0.4B,99.9%的权重为零。 在AI飞速发展的今天,大语言模型(LLM)虽然表现出了惊人的能力,但其内部运作机制始终像一个神秘的"黑箱"。 我们不知道它为何做出某个回答,也不清楚它是如何从海量数据中提取知识的。这种不可解释性,成为了AI在医疗、金融、法律等高风险领 域落地的重大障碍。 对此,OpenAI研究团队训练出了一个权重稀疏的Transformer模型,强制模型权重矩阵中99.9%权重为零,仅保留0.1%非零权重。 在这项研究中,研究团队在模型内部形成了紧凑且可读的"电路"(Circuits),每个电路都仅保留了保证模型性能的关键节点,神经元的激活 变得具有明确的语义。 Circuit-Sparsity开源(来源:Hugging Face) 这个技术试图解决模型的可解释性问题,简单来说就是回答"模型为什么做出这个决策?"以及"它是如何得出这 ...