Workflow
亚信安全20241223

恶意的制令进行一个识别或过滤那么当然这只是进行了举例之一除此之外其实这种先行攻击的手段还蛮多的还不止这一种也可以是干扰一些训练数据那么干扰训练数据之后导致的结果呢就是这个大模型很有可能被恶意的留一个后门留一个后门以后攻击者可以在大模型应用的时候再去恶意的操控它 然后也有可能是说对大模型使用阶段对大模型的行为进行分析进行分析导致的结果呢就是说这个大模型原来的一些试验数据微调数据或者是系统预知的提示词有可能这样一些敏感的信息就被获取获取会被窃取出来这个可能性也是存在的所以呢就是当然了这些都是一些举例那个 这种新型的风险类型还挺多的所以就是大模型尽管给我们带来了很多的好处很多的这个益处但是我们要真正的让它保证它的安全稳定运行那么还需要在一个这样一个对抗环境有一些攻击者有一些新型攻击方式的这个环境里头采取一些防护措施来能够保证它的安全运行 那么我们实际上主要就是在做这方面的研究在做这样的工作那么研究大模型有什么样的新老的安全风险然后呢一方面呢是帮助客户能够自己发现自己的这个环境里边是不是有这样的一些问题这个是检查自查的这个方面能够给客户一些帮助再有一块呢就是说到底怎么能够从大模型的外部能够识别到这样的风险 到底有没有 ...