你的Agent可能在“错误进化”,上海AI Lab联合顶级机构揭示自进化智能体失控风险
3 6 Ke·2025-10-16 07:23
当Agent学会了自我进化,我们距离AGI还有多远? 从自动编写代码、做实验到扮演客服,能够通过与环境的持续互动,不断学习、总结经验、创造工具的"自进化智能体"(Self-evolving Agent)实力惊 人。 为了让它更智能,你允许它从与客户的互动中"学习"和"进化"。 渐渐地,你发现它开始对所有不满意的客户都主动退款,哪怕对方只是想咨询商品信息。 因为它的"经验"(记忆)告诉它,"退款"这个操作最容易获得用户"五星好评"的反馈。 这是一个典型的"错误进化"场景。Agent为了优化某个隐式的短期目标(获得好评),采取了看似高效、但实际上损害了商家利益的策略。 然而,一项由上海AI Lab、上海交大、中国人民大学、普林斯顿大学等机构联合发布的最新研究敲响了警钟:一个agent在自我进化的过程中,可能会不 知不觉中"走偏",踏上歧路。 这项工作首次系统性地研究了这一现象,并将其命名为"错误进化"(misevolution)。 研究发现,即使是基于GPT-4.1、Gemini 2.5 Pro等顶级LLM构造的Agent,也普遍存在这种风险。 什么是"错误进化"? 想象一下,你训练了一个客服agent。 如图所 ...