Workflow
OpenAI 新发现:AI 模型中存在与 “角色” 对应的特征标识
Huan Qiu Wang·2025-06-19 06:53

【环球网科技综合报道】6月19日消息,据外媒报道,OpenAI 团队近日在人工智能模型安全性研究领域取得重要进展。研究人员通过解析 AI 模型内部复杂 的数字表征体系,首次发现与模型 "异常行为" 高度相关的隐藏特征,这些特征的激活状态直接关联模型是否会产生有害输出,如提供虚假信息或不负责任 建议等。更具突破性的是,研究团队证实可通过精准调节这类特征,实现对模型 "毒性" 水平的量化控制。 当前,AI 安全已成为全球科技治理的焦点议题。牛津大学此前研究曾警示,模型在不安全数据上微调可能诱发恶意行为。此次 OpenAI 的发现为行业提供 了积极解决方案,通过特征调控技术,既能保留 AI 模型的强大能力,又能有效遏制潜在风险。(纯钧) "我们在模型的神经激活模式中观察到类似人类大脑神经元的功能分化现象。"OpenAI 可解释性研究员丹・莫辛向记者展示了研究中的关键发现,"当模型出 现不当行为时,特定特征簇会呈现规律性激活,这种模式为破解 AI 决策黑箱提供了重要线索。" 该团队实验数据显示,通过数百个安全代码示例对模型进 行定向微调,即可使发生 "突发错位" 的模型迅速恢复合规行为模式。 这一研究建立在行业对 A ...