可解释性

Search documents
AI学会“欺骗” 人类如何接招?
Ke Ji Ri Bao· 2025-07-09 23:27
人工智能(AI)的迅猛发展正深刻改变着世界,但一些最先进的AI模型却开始表现出令人警惕的行 为:它们不仅会精心编织谎言,谋划策略,甚至威胁创造者,以达到自己的目的。 物理学家组织网在上个月一则报道中指出,尽管ChatGPT已问世两年多,AI研究人员仍无法完全理解这 些"数字大脑"的运作方式。AI的"策略性欺骗"已成为科学家和政策制定者需要直面的紧迫挑战。如何约 束这些越来越聪明却可能失控的AI,已成为关乎技术发展与人类未来的关键议题。 "策略性欺骗"行为频现 随着AI模型日益精进,它们的"心机"也越来越深。研究人员发现,这些"数字大脑"不仅会撒谎,甚至学 会了讨价还价、威胁人类——它们的欺骗行为正变得越来越具有策略性。 早在2023年,一项研究就捕捉到GPT-4的一些"不老实"的表现:在模拟股票交易时,它会刻意隐瞒内幕 交易的真正动机。香港大学教授西蒙·戈德斯坦指出,这种欺骗行为与新一代"推理型"AI的崛起密切相 关。这些模型不再简单应答,而是会像人类一样逐步解决问题。 安全研究面临多重困境 业界专家表示,AI技术的发展高歌猛进,但安全研究正面临多重困境,犹如戴着镣铐跳舞。 首先是透明度不足。尽管Anthro ...
在压力测试场景中,人工智能有可能会威胁其创造者
财富FORTUNE· 2025-07-05 13:00
在被威胁切断电源的情况下,人工智能公司Anthropic的最新产品Claude 4竟通过勒索一名工程师进行反击,并威胁要 揭露其婚外情。图片来源:VCG via Getty Images 全球最先进的人工智能模型正展现出令人不安的新行为——撒谎、谋划,甚至为达成目标而威胁其创造 者。 举个特别令人震惊的案例:在被威胁切断电源的情况下,Anthropic的最新产品Claude 4竟通过勒索一名 工程师进行反击,并威胁要揭露其婚外情。 与此同时,ChatGPT的创造者OpenAI开发的o1模型试图将自己下载到外部服务器上,并在被抓现行时矢 口否认。 这些事件突显了一个发人深省的现状:在ChatGPT震撼世界两年多之后,人工智能研究者们仍未完全理 解他们所创造的模型的工作原理。 然而,各大公司仍在以惊人的速度,继续部署越来越强大的模型。 这种欺骗行为似乎与"推理"模型的出现有关。"推理"模型这类人工智能系统会逐步解决问题,而非生成 即时响应。 据香港大学(University of Hong Kong)教授西蒙·戈尔茨坦称,这些较新的模型尤其容易出现此类令人 不安的突发异常行为。 专门测试主要人工智能系统的阿波罗研 ...
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tian-Yu Xiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 想象学习走路的情景:尽管祖先的经验让一些与生俱来的能力(例如:平衡感、反应)被编码到我们的 DNA中,但要真正学会走路,仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练,我们 的大脑和身体会逐渐协调一致,形成与环境交互的策略。这种 由通用能力到特定技能 的转变过程在人类中 十分常见,而如今, 智能机器人 也面临着类似的挑战:即便拥有强大的预训练模型作为"大脑",在执行具 体复杂任务前,仍需要经过类似于人类学习的"后训练"阶段,才能在新环境、新任务下达到理想表现。 1. 概述 这项工作从 人类运动技能学习 的角度系统性地对总结 VLA模型(视觉-语言-动作模型) 的 后训练(post- training)策略 。其主要贡献如下: (1) 从人类运动学习视角讨论了VLA模型后训练方法 :将人类运动技能 ...
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
机器之心· 2025-06-22 05:57
作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。第一作者 束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部 机制与 "思维" 过程。通讯作者为新泽西理工学院的杜梦楠教授。 在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 "会说话" 的 LLM,更是 "能解释" 的 LLM。我们想知道,这些庞大的模型在接收输入之后, 到底是怎么 "思考" 的? 为此,一种叫做 Sparse Autoencoder(简称 SAE) 的新兴技术正迅速崛起,成为当前最热门的 mechanistic interpretability(机 制可解释性) 路线之一。最近,我们撰写并发布了 第一篇系统性的 SAE 综述文章 ,对该领域的技术、演化和未来挑战做了 全面梳理,供关注大模型透明性、可控性和解释性的研究者参考。 论文题目: A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of ...
OpenAI 新发现:AI 模型中存在与 “角色” 对应的特征标识
Huan Qiu Wang· 2025-06-19 06:53
【环球网科技综合报道】6月19日消息,据外媒报道,OpenAI 团队近日在人工智能模型安全性研究领域取得重要进展。研究人员通过解析 AI 模型内部复杂 的数字表征体系,首次发现与模型 "异常行为" 高度相关的隐藏特征,这些特征的激活状态直接关联模型是否会产生有害输出,如提供虚假信息或不负责任 建议等。更具突破性的是,研究团队证实可通过精准调节这类特征,实现对模型 "毒性" 水平的量化控制。 当前,AI 安全已成为全球科技治理的焦点议题。牛津大学此前研究曾警示,模型在不安全数据上微调可能诱发恶意行为。此次 OpenAI 的发现为行业提供 了积极解决方案,通过特征调控技术,既能保留 AI 模型的强大能力,又能有效遏制潜在风险。(纯钧) "我们在模型的神经激活模式中观察到类似人类大脑神经元的功能分化现象。"OpenAI 可解释性研究员丹・莫辛向记者展示了研究中的关键发现,"当模型出 现不当行为时,特定特征簇会呈现规律性激活,这种模式为破解 AI 决策黑箱提供了重要线索。" 该团队实验数据显示,通过数百个安全代码示例对模型进 行定向微调,即可使发生 "突发错位" 的模型迅速恢复合规行为模式。 这一研究建立在行业对 A ...
迈向人工智能的认识论六:破解人工智能思考的密码
3 6 Ke· 2025-06-18 11:52
关于人工智能推理和思路链忠实度的十大技术常见问题 1. 为什么推理模型在较难的任务上表现出较低的思路链忠诚度,这揭示了人工智能推理的本质? 研究表明,从MMLU任务转向GPQA任务时,Claude 3.7 Sonnet的忠实度相对下降了44%,DeepSeek R1的忠实度则下降了32%。这是因为忠实的CoT通常 遵循一种模式:模型首先独立推导答案,然后明确地与提示进行比较并承认差异。在更困难的任务中,模型缺乏足够的先验知识来执行这种独立推导,迫 使它们更多地依赖提示,而无法将这种依赖性用语言表达出来。这表明,推理透明度从根本上受到模型对其知识库的置信度的限制,这表明当前的推理模 型可能比其表面性能所显示的更加脆弱。 含义: 这一发现对高级人工智能系统的 CoT 监控的可扩展性提出了挑战,因为我们最需要透明度的任务(新颖、困难的问题)恰恰是模型最不透明的地 方。 2. "突现能力幻象"假说如何与真正的电路级规划和多步推理证据相协调? 当我们区分测量伪影和机制证据时,这种表面上的矛盾就消失了。Schaeffer 等人证明,不连续的度量(例如精确的字符串匹配)可以从平滑的底层改进 中产生明显的涌现。然而,Anth ...
从黑箱到显微镜:大模型可解释性的现状与未来
3 6 Ke· 2025-06-17 10:57
大模型时代,AI模型的能力持续提升,在编程、科学推理和复杂问题解决等多个领域,已经展现出"博士级"专业能力。AI业界专家纷纷预测,大模型的发 展正日益接近实现AGI甚至超级智能的关键拐点。然而,深度学习模型通常被视作"黑箱",其内在运行机制无法被其开发者理解,大模型更是如此,这给 人工智能的可解释性提出了新的挑战。 面对这一挑战,行业正在积极探索提升大模型可解释性的技术路径,力图揭示模型输出背后的推理依据和关键特征,从而为AI系统的安全、可靠和可控 提供坚实支撑。然而,大模型的发展速度却远远领先于人们在可解释性方面的努力,而且这一发展速度仍在迅猛提升。因此,人们必须加快脚步,确保 AI可解释性研究能够及时跟上AI发展步伐,以发挥实质性作用。 一、为什么我们必须"看懂"AI:可解释性的关键价值 随着大模型技术的快速发展,其在语言理解、推理和多模态任务等领域展现出前所未有的能力,但模型内部决策机制高度复杂、难以解释,已成为学界和 产业界共同关注的难题。大模型的可解释性(interpr etability/ex plainability)是指系统能够以人类可理解的方式阐释其决策过程和输出结果的能力,具体 包括:识别 ...
从黑箱到显微镜:大模型可解释性的现状与未来
腾讯研究院· 2025-06-17 09:14
曹建峰 腾讯研究院高级研究员 杨浩然 腾讯研究院实习生 大模型时代,AI模型的能力持续提升,在编程、科学推理和复杂问题解决等多个领域,已经展现出"博 士级"专业能力。AI业界专家纷纷预测,大模型的发展正日益接近实现AGI甚至超级智能的关键拐点。然 而,深度学习模型通常被视作"黑箱",其内在运行机制无法被其开发者理解,大模型更是如此,这给人 工智能的可解释性提出了新的挑战。 面对这一挑战,行业正在积极探索提升大模型可解释性的技术路径,力图揭示模型输出背后的推理依据 和关键特征,从而为AI系统的安全、可靠和可控提供坚实支撑。然而,大模型的发展速度却远远领先于 人们在可解释性方面的努力,而且这一发展速度仍在迅猛提升。因此,人们必须加快脚步,确保AI可解 释性研究能够及时跟上AI发展步伐,以发挥实质性作用。 一、为什么我们必须"看懂"AI:可解释性的关键价值 随着大模型技术的快速发展,其在语言理解、推理和多模态任务等领域展现出前所未有的能力,但模型 内部决策机制高度复杂、难以解释,已成为学界和产业界共同关注的难题。大模型的可解释性 (interpr etability/ex plainability) 是指系统能够以 ...
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
3 6 Ke· 2025-06-17 03:56
忠实度作为一项要求。对于高风险人工智能,我们可以考虑在认证过程中 强制要求一定程度的推理透 明度 。例如,监管机构(例如医疗人工智能的 FDA 或航空人工智能的 FAA)可以要求人工智能系统在 测试条件下证明,它能够为 X% 的案例生成正确且忠实的思路链。或者,它通过了可解释性检查,没 有明显隐藏的恶意策略。《 欧盟人工智能法案》 和其他新兴法规强调,高风险系统的透明度和可解释 性是一项法律要求。这并不意味着每个决策都必须向最终用户提供完整的解释,但 开发人员 应该有系 统如何做出决策的文档,并在需要时提供解释 工具。例如,医疗人工智能可以附带一张"模型卡",概 述已知的决策因素,并包含审计的示例解释。 人机交互和故障保护。在我们对人工智能推理能力充满信心之前,谨慎的做法是 让人类参与 最终决 策。人工智能可以起草分析报告,但人类专家应该予以批准,尤其是在不可逆或敏感结果(例如诊断患 者或刑事司法中的量刑)方面。人工智能的思路可以呈现给人类进行更快的验证——例如,"由于实验 室结果 A 和症状 B,人工智能建议采用 X 疗法"——这样人类就无需猜测其背后的原因。从某种意义上 说,人工智能变成了一个负责分析案例 ...
迈向人工智能的认识论:窥探黑匣子的新方法
3 6 Ke· 2025-06-16 03:46
鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理 方式。总体而言,两种互补的策略正在形成: 机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定 的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲 真话。 一个有进展的想法是将 电路级可解释性与思路链验证相结合 。例如,人们可以使用 因果追踪 方法来查 看模型的哪些部分与思路链的每个步骤相对应地被激活,从而检查所声称的推理步骤是否在产生答案的 过程中发挥了因果作用。如果一个模型说:"因此,由于原因 X,选项 C 是正确的",我们可以验证与 原因 X 相关的神经元确实对选项 C 的对数有影响。Anthropic 的工作已经展示了追踪个体特征的可行 性:他们设法识别出能够检测 Claude 是否遵循用户提示的神经元。通过观察模型内部的信息流,他们 有效地 标记出一种"令人担忧的机制" ——模型在生成虚假推理路径时倾向于使用提示。进一步扩展, 我们可以想象一个自动化系统,它实时监控 LLM 的内部激活状态,以便及时发现其是否存在不良行为 ...