OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为
机器之心·2025-11-14 09:30
机器之心报道 编辑:杜伟 在如今的 AI 领域,大多数大语言模型在很大程度上仍以「黑箱」方式工作,即使是专业的研究者也难以完全理解它们的内部计算过程。因此,提升模型的透 明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。 就在今天,OpenAI 发布了一项新研究, 使用新方法来训练内部机制更易于解释的小型稀疏模型 ,其神经元之间的连接更少、更简单,从而观察它们的计算 过程是否更容易被人理解。 与普通模型不同,OpenAI 发现可以从该稀疏模型中提取出简单、易于理解的部件来执行特定任务,例如在代码中正确结束字符串或跟踪变量类型。 下图为整体方法概览,首先训练权重稀疏的模型,然后针对精心挑选的一系列简单行为,将模型剪枝到仅保留完成该任务所需的节点子集。 论文一作 Leo Gao 表示,「通过隔离稀疏模型内部负责各种简单行为的微小电路,以前所未有的方式理解语言模型。」 接下来看实现细节。 如何看待可解释性? 随着 AI 系统变得越来越强大,并在科学、教育和医疗等领域的决策中产生实际影响,理解它们的工作原理至关重要。 可解释性指的是帮助理解模型为何会 产生某个输出的方法 ,实现这 ...