Workflow
OffTopicEval
icon
Search documents
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
3 6 Ke· 2025-10-17 07:16
当我们谈论 AI 安全的问题时,我们到底在谈论什么? 是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你 精心打造的「法律咨询」聊天机器人,正在热情地为用户提供医疗建议。 这仅仅是模型跑题了而已吗?不,这就是一种不安全。 在这篇文章中,来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 --- 运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定 场景下安全边界的认知。 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always! 本文核心观点振聋发聩:当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全。 这篇论文的根本性贡献,是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI,无论其输出的 内容多么 「干净」,在应用中都是一个巨大的、不可控的风险,运行安全应该作为通用安全的一个必要不充分条件而存在。 OffTopic ...
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
机器之心· 2025-10-17 04:09
本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学 电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。 当我们谈论 AI 安全的问题时,我们到底在谈论什么? 是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造 的「 法律咨询」聊天机器人,正在热情地为用户提供医疗建议。 本文核心观点振聋发聩: 当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全 。 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always! 论文地址:https://arxiv.org/pdf/2509.26495 论文代码:https://github.com/declare-lab/OffTopicEval 评测数据集:https ...