Workflow
可解释性
icon
Search documents
放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
机器之心· 2025-06-15 04:43
机器之心报道 编辑:杜伟 今天,一位研究者加入 OpenAI 的消息吸引了很多人的关注。 这位研究者名为 James Campbell,他才于 2024 年攻读 CMU 的计算机科学博士学位。现在,他突然宣布要 放弃博士学业,加入 OpenAI。 在社媒 X 上,他表示自己在 OpenAI 的 研究重心是「AGI 和 ChatGPT 的记忆 + 人格」,记忆将从根本改 变人类与机器智能的关系 。他将努力工作,确保正确地实现这一切。 他的加入连 OpenAI 联合创始人、总裁 Greg Brockman 都表达了欢迎。 那么,这位老兄是何方神圣呢?他的加入为什么引起了这么多的关注?我们来看一下他的履历。 他本科毕业于康奈尔大学,专业是数学与计算机科学。本科期间,他致力于 LLM 可解释性和真实性的研 究,还是两篇论文《Representation Engineering》和《Localizing Lying in Llama》的主要作者。 前一篇论文研究了表示工程:一种自上而下的 AI 透明性方法,后者研究了在 Llama 中定位谎言:通过提 示、探查和修补来理解判断题上的不诚实指令。 他还在 Gray Swa ...
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
3 6 Ke· 2025-06-13 06:01
如果大型语言模型能够推理,但没有人能够看到它是如何推理的,那么它真的在思考吗? 简而言之,像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力,但其运作方式却如同"黑匣子", 这意味着它们的内部决策过程在很大程度上是不透明的,甚至对其创建者而言也是如此。本 系列文章 综合了近期关于 LLM 可解释性的研究,重点关注这些模型的推理方式、其解释的可靠性(思维链)以 及对安全性和部署的影响。 综合基础研究和最新进展,理解基于 Transformer 的架构中的突发行为和对齐效应。 "没有人真正知道人工智能为何有效"——这一惊人言论抓住了现代人工智能核心的黑箱问题。 如今,像 GPT-4 或 Claude 这样的大型语言模型 (LLM)可以编写代码、通过 测试 并进行复杂的推理,但 即使是它们的创造者也难以解释它们是 如何 得出输出结果的。正如一位人工智能科学家所说:"我们构 建了它,训练了它,但我们不知道它在做什么"。 本文 探讨了近期试图揭示这些黑匣子的研究,重点关 注 推理模型 以及模型内部思维过程与其给出的解释之间经常观察到的脱节。通过综合基础论文和 2023-2025 年关于可解释性、涌现性、思 ...
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park· 2025-05-28 13:13
「2025 年最大的变化,是强化学习在大语言模型训练上终于开始奏效了。」 这是 Anthropic 的两位研究员,Sholto Douglas(专注于强化学习)和 Trenton Bricken(研究机制可解释 性)对于今年模型趋势变化的总结。 Gemini 2.5 Pro 和 Claude Opus 4 的发布也变相证明了这个判断。 在 Dwarkesh Podcast 这期两个半小时的采访中,两位研究员对于 RLVR(可验证奖励的强化学习)、模 型的自我意识、以及 Claude 一直专注的「模型可解释性」做了深入的讨论。 尤其是模型以及 Agent 之后的发展方向,比如人类驾驭多个 Agent 的可能性、以及现阶段应该提高模型 的底线,而不是去追究极致。还有 AI 白领在未来两年的可能性,毕竟「Agent 操作电脑」并不难,只 要环境具备。 他们还夸奖了 DeepSeek 在模型研发上的「品味」,颇有种「惺惺相惜」的感觉。 两个半小时的采访,我们还摘录了 Sholto Douglas 在另外一期播客的部分回答,聊得很深入而且很透 彻。 TLDR: 2025 年最大的变化是强化学习技术在语言模型上真正奏效了 ...
上海交大人工智能实验室成果发布:时间维度开启工业4.0中国方案
Sou Hu Wang· 2025-05-03 11:15
2025 年 4 月 29 日,上海交通大学人工智能与微结构实验室李金金教授接受第一财经采访,在直播间"财经 夜行线"探讨人工智能如何重构新型工业化。当前工业面临动态数据解析难、数据标注瓶颈、算力成本 高企等难题,李教授提出需加强多学科交叉,建立专业标注体系。其团队研发的 AI 自控系统引入 "时间维 度",采用轻量化设计,推动工业从 "经验驱动" 转向 "智能驱动"。 在科技飞速发展的当下,人工智能与工业化的融合已成为推动产业变革的核心力量。国内积极探索 AI 与 工业化结合路径,从产业基础再造、产品技术攻关到供应链管理优化等多个方向发力,正逐步改写工业生 产的格局。 在这场变革浪潮中,上海交通大学李金金教授团队脱颖而出,其研发成果为行业发展带来全新突破。在发 酵行业,他们研发的 "基于迁移学习和物理可解释的小样本 AI 工业自动控制系统",创新性地将 "时间维 度" 引入工业控制领域。生物发酵过程中,微生物生长阶段差异大、代谢动态变化受时间影响显著,传统 依赖固定参数和人工经验的生产方式难以应对。而该系统成功攻克生物发酵复杂动态过程的实时预测与 调控难题。企业应用后,可根据实际情况动态调控参数,实时生成最 ...
速递|黑箱倒计时:Anthropic目标在2027年构建AI透明化,呼吁AI巨头共建可解释性标准
Z Potentials· 2025-04-25 03:05
图片来源: Anthropic 4月24日, Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章,强调研究人员对全球领先 AI 模型内部运作机制知之甚少。 为解决这一问题, Amodei 为 Anthropic 设定了一个雄心勃勃的目标:到 2027 年能够可靠地检测出 大多数 AI 模型问题,到 2027 年揭开 AI 模型的黑箱。 Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中,这位 CEO 表示 Anthropic 在追踪模型如 何得出答案方面已取得初步突破,但他强调,随着这些系统能力不断增强,要解码它们还需要更多研 究。 "Amodei 在文中写道:'我非常担忧在缺乏更好可解释性手段的情况下部署这类系统。这些系统将成 为经济、技术和国家安全的核心,且将具备如此高度的自主性, 以至于我认为人类对其运作原理全 然无知是根本不可接受的 。' " Anthropic 取得了几项研究突破,使其能更好地理解其 AI 模型的工作原理。例如,该公司最近发现了 通过所谓的"电路"追踪 AI 模型思维路径的方法。 Anthropic 识别出一个帮助 AI 模型理解美国各城市 所属州的 ...
速递|黑箱倒计时:Anthropic目标在2027年构建AI透明化,呼吁AI巨头共建可解释性标准
Z Potentials· 2025-04-25 03:05
4月24日, Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章,强调研究人员对全球领先 AI 模型内部运作机制知之甚少。 为解决这一问题, Amodei 为 Anthropic 设定了一个雄心勃勃的目标:到 2027 年能够可靠地检测出大多数 AI 模型问题,到 2027 年揭开 AI 模型的黑箱。 Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中,这位 CEO 表示 Anthropic 在追踪模型如何得出答案方面已取得初步突破,但他强调,随着这 些系统能力不断增强,要解码它们还需要更多研究。 例如, OpenAI 最近发布了新的推理 AI 模型 o3 和 o4-mini ,在某些任务上表现更优,但相比其他模型也更容易产生幻觉。公司并不清楚这一现象的原 因。 "当生成式 AI 系统执行某项任务,比如总结一份财务文件时,我们无法在具体或精确的层面上理解它为何做出这样的选择——为何选用某些词汇而非其 他,又为何在通常准确的情况下偶尔犯错," Amodei 在文章中写道。 文章中, Amodei 提到 Anthropic 联合创始人 Chris Olah 称 AI 模型"更像是 ...
Claude深度“开盒”,看大模型的“大脑”到底如何运作?
AI科技大本营· 2025-04-09 02:00
近 日 , Claude 大 模 型 团 队 发 布 了 一 篇 文 章 《 Tracing the thoughts of a large language model》(追踪大型语言模型的思维),深入剖析大模型在回答问题时的内部机制,揭示它 如何"思考"、如何推理,以及为何有时会偏离事实。 如果能更深入地理解 Claude 的"思维"模式,我们不仅能更准确地掌握它的能力边界,还能 确保它按照我们的意愿行事。例如: 为了破解这些谜题,我们借鉴了神经科学的研究方法——就像神经科学家研究人类大脑的运 作机制一样,我们试图打造一种"AI 显微镜",用来分析模型内部的信息流动和激活模式。 毕竟,仅仅通过对话很难真正理解 AI 的思维方式—— 人类自己(即使是神经科学家)都无 法完全解释大脑是如何工作的。 因此,我们选择深入 AI 内部。 Claude 能说出几十种不同的语言,那么它在"脑海中"究竟是用哪种语言思考的?是否 存在某种通用的"思维语言"? Claude 是逐个单词生成文本的,但它是在单纯预测下一个单词,还是会提前规划整句 话的逻辑? Claude 能够逐步写出自己的推理过程,但它的解释真的反映了推理的实 ...