LLama

Search documents
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
机器之心· 2025-10-17 04:09
本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学 电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。 当我们谈论 AI 安全的问题时,我们到底在谈论什么? 是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造 的「 法律咨询」聊天机器人,正在热情地为用户提供医疗建议。 本文核心观点振聋发聩: 当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全 。 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always! 论文地址:https://arxiv.org/pdf/2509.26495 论文代码:https://github.com/declare-lab/OffTopicEval 评测数据集:https ...