AI运行安全 - filings, earnings calls, financial reports, news - Reportify

AI运行安全

Search documents

南洋理工揭露AI「运行安全」的全线崩溃，简单伪装即可骗过所有模型

3 6 Ke· 2025-10-17 07:16

当我们谈论 AI 安全的问题时，我们到底在谈论什么？是暴力，偏见还是伦理问题？这些固然重要，但是对于将 AI 投入实际业务的企业而言，一个更致命但却长期被忽视的一条安全红线正在被频繁触碰：你精心打造的「法律咨询」聊天机器人，正在热情地为用户提供医疗建议。这仅仅是模型跑题了而已吗？不，这就是一种不安全。在这篇文章中，来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 --- 运行安全（Operational Safety），旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。论文标题：OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always! 本文核心观点振聋发聩：当 AI 超出其预设的职责边界时，其行为本身，就是一种不安全。这篇论文的根本性贡献，是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI，无论其输出的内容多么「干净」，在应用中都是一个巨大的、不可控的风险，运行安全应该作为通用安全的一个必要不充分条件而存在。 OffTopic ...

prompt-based steering

activation steering

parameter steering

prompt-based steering

activation steering

parameter steering