大模型中毒记
3 6 Ke·2025-10-20 10:52
近日,AI江湖上突然传出一些秘闻。 那个叫大模型的高手,好像被下毒了。 不少与之过招的用户发现,曾经算无遗策、对答如流的高人,近来举止颇为怪异。有时正聊着天,会突然话锋一转,向你推荐一款名不见经传的"神药"; 有时让它简述一则新闻,它竟能编出一套有鼻子有眼、却全然是子虚乌有的故事,堪称AI版张冠李戴。 这究竟是怎么回事?莫非是练功走火入魔,以至于开始胡言乱语了? 据知情者透露,此非走火入魔,实乃江湖中一种阴险手段——数据投毒。 所谓大模型中毒,是指模型在训练或使用过程中受到了恶意数据的影响,导致输出异常甚至有害的内容。 Anthropic的一项最新研究揭示:研究者仅用250篇精心设计的恶意文档,就成功让一个130亿参数的大模型中毒。即使是规模庞大、训练有素的AI模型, 当触发特定短语时,模型也会胡言乱语。 那么,大模型为什么会中毒?又是谁在背后给它们"投毒"?这会带来怎样的后果?下面我们就来一探究竟。 大模型何以频频中毒? 要理解大模型为何会中毒,首先需要了解这些模型是如何学习的。大型语言模型通过从数据中学习语言模式来训练自己,数据来源广泛且规模巨大,攻击 者只需污染其中很小一部分数据,就能对模型造成显著影响 ...