从MLLM到Agent:万字长文览尽大模型安全进化之路!
自动驾驶之心·2025-09-03 23:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面&笔者的个人理解 人工智能已从单一文本交互迈入多模态理解与智能体自主决策的新阶段。从处理纯文本的 大语言模型 (LLMs) ,到融合图像、音频的 多模态大语言模型(MLLMs) ,再到具备环境感知、任务规划能力的 智能体(Agents) ,大模型的 能力上限持续扩张,但安全风险也随之呈指数级增长 。 其中, 越狱攻击 作为最具威胁性的安全风险之一,始终困扰着大模型生态—— 攻击者通过精心设计的输 入或环境扰动,绕过模型的安全机制,诱导其生成违法、有害、违背伦理的内容 ,小则传播虚假信息、煽 动仇恨,大则引发网络攻击、隐私泄露等严重后果。然而,现有研究多聚焦于 单一形态模型 (如LLMs) 的攻击与防御,缺乏对LLMs-MLLMs-Agents 全演进链路 的系统性梳理,更未形成 统一的攻击分类框架、 评估标准与防御体系 。 在这一背景下,来自河南大学软件学院与中国科学院信息工程研究所的研究团队,对该领域进行了全面的 综述总结。该综述不仅 系 ...