机器学习中的数据投毒:人们为何以及如何操纵训练数据
3 6 Ke·2026-01-19 01:56
简而言之,数据投毒是指以某种方式改变用于构建机器学习模型的训练数据,从而改变模型的行为。这 种影响仅限于训练过程,一旦模型被篡改,损害就无法挽回。模型将出现不可逆转的偏差,甚至可能完 全失效,唯一的真正解决办法是使用干净的数据重新训练模型。 你知道你的数据都去了哪里吗? 数据是机器学习乃至人工智能运行不可或缺的重要组成部分,尽管它有时会被忽视。生成式人工智能公 司正在全球范围内搜寻更多数据,因为构建模型需要大量的原始数据。任何构建或调整模型的人都必须 首先收集大量数据才能开始。 然而,这种现实也带来了一些相互冲突的激励机制。保护数据的质量和真实性是安全的重要组成部分, 因为这些原始数据将决定您提供给用户或客户的机器学习模型的成败。不法分子可以策略性地在您的数 据集中插入、修改或删除数据,而您可能根本察觉不到这些操作,但这些操作会系统性地改变模型的行 为。 与此同时,艺术家、音乐家和作家等创作者正与猖獗的版权侵权和知识产权盗窃行为进行着一场旷日持 久的斗争,而这些侵权行为主要来自那些需要更多数据来填充其庞大训练过程的生成式人工智能公司。 这些创作者正在寻求能够阻止或遏制这种盗窃行为的措施,而不是仅仅依赖往往行动 ...