大模型哪里出问题、怎么修,这篇可解释性综述一次讲清
机器之心·2026-01-27 04:00

过去几年,机制可解释性 (Mechanistic Interpretability) 让研究者得以在 Transformer 这一 "黑盒" 里追踪信息如何流动、表征如何形成:从单个神经元到注意力头,再到 跨层电路。但在很多场景里,研究者真正关心的不只是 "模型为什么这么答",还包括 "能不能更稳、更准、更省,更安全"。 正是在这一背景下,来自 香港大学、 复旦大学 、慕尼黑大学、曼切斯特大学、腾讯 等机构的研究团队联合发布了 "可实践的机制可解释性" (Actio nable Mechanistic Interpretability) 综述。文章通过 "Locate, Steer, and Improve" 的三阶段范式,系统梳理了如何将 MI 从 "显微镜" 转化为 "手术刀",为大模型的对齐、能力增强和效 率提升提供了一套具体的方法论。 从 "显微镜" 到 "手术刀" 的范式转移 尽管大语言模型(LLM)近年来在多种任务上展现出了强大的能力,但其内部的运作机制依然在很大程度上不透明,常被视为一个 "黑盒"。围绕如何理解这一黑 盒,机制可解释性 (Mechanistic Interpretability, ...