思路链忠实度

Search documents
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
3 6 Ke· 2025-06-13 06:01
如果大型语言模型能够推理,但没有人能够看到它是如何推理的,那么它真的在思考吗? 简而言之,像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力,但其运作方式却如同"黑匣子", 这意味着它们的内部决策过程在很大程度上是不透明的,甚至对其创建者而言也是如此。本 系列文章 综合了近期关于 LLM 可解释性的研究,重点关注这些模型的推理方式、其解释的可靠性(思维链)以 及对安全性和部署的影响。 综合基础研究和最新进展,理解基于 Transformer 的架构中的突发行为和对齐效应。 "没有人真正知道人工智能为何有效"——这一惊人言论抓住了现代人工智能核心的黑箱问题。 如今,像 GPT-4 或 Claude 这样的大型语言模型 (LLM)可以编写代码、通过 测试 并进行复杂的推理,但 即使是它们的创造者也难以解释它们是 如何 得出输出结果的。正如一位人工智能科学家所说:"我们构 建了它,训练了它,但我们不知道它在做什么"。 本文 探讨了近期试图揭示这些黑匣子的研究,重点关 注 推理模型 以及模型内部思维过程与其给出的解释之间经常观察到的脱节。通过综合基础论文和 2023-2025 年关于可解释性、涌现性、思 ...