速递|黑箱倒计时:Anthropic目标在2027年构建AI透明化,呼吁AI巨头共建可解释性标准
Z Potentials·2025-04-25 03:05
4月24日, Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章,强调研究人员对全球领先 AI 模型内部运作机制知之甚少。 为解决这一问题, Amodei 为 Anthropic 设定了一个雄心勃勃的目标:到 2027 年能够可靠地检测出大多数 AI 模型问题,到 2027 年揭开 AI 模型的黑箱。 Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中,这位 CEO 表示 Anthropic 在追踪模型如何得出答案方面已取得初步突破,但他强调,随着这 些系统能力不断增强,要解码它们还需要更多研究。 例如, OpenAI 最近发布了新的推理 AI 模型 o3 和 o4-mini ,在某些任务上表现更优,但相比其他模型也更容易产生幻觉。公司并不清楚这一现象的原 因。 "当生成式 AI 系统执行某项任务,比如总结一份财务文件时,我们无法在具体或精确的层面上理解它为何做出这样的选择——为何选用某些词汇而非其 他,又为何在通常准确的情况下偶尔犯错," Amodei 在文章中写道。 文章中, Amodei 提到 Anthropic 联合创始人 Chris Olah 称 AI 模型"更像是 ...