Claude深度“开盒”，看大模型的“大脑”到底如何运作？

近日， Claude 大模型团队发布了一篇文章《 Tracing the thoughts of a large language model》（追踪大型语言模型的思维），深入剖析大模型在回答问题时的内部机制，揭示它如何"思考"、如何推理，以及为何有时会偏离事实。如果能更深入地理解 Claude 的"思维"模式，我们不仅能更准确地掌握它的能力边界，还能确保它按照我们的意愿行事。例如：为了破解这些谜题，我们借鉴了神经科学的研究方法——就像神经科学家研究人类大脑的运作机制一样，我们试图打造一种"AI 显微镜"，用来分析模型内部的信息流动和激活模式。毕竟，仅仅通过对话很难真正理解 AI 的思维方式—— 人类自己（即使是神经科学家）都无法完全解释大脑是如何工作的。因此，我们选择深入 AI 内部。 Claude 能说出几十种不同的语言，那么它在"脑海中"究竟是用哪种语言思考的？是否存在某种通用的"思维语言"？ Claude 是逐个单词生成文本的，但它是在单纯预测下一个单词，还是会提前规划整句话的逻辑？ Claude 能够逐步写出自己的推理过程，但它的解释真的反映了推理的实 ...