NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻
机器之心·2025-10-25 05:14
作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程。 本文已被 NeurIPS 2025 录用。 LLM 已在智能创作、企业服务等领域广泛应用,但其内容安全问题仍是落地过程中的关键挑战。仇恨、歧视、威胁性言论等潜在风险,使得 LLM 的安全部署与 可信使用面临困难,而现有的内容过滤或对齐方案在效果、效率与成本之间往往难以兼顾。 近期,来自北航等机构的研究提出了一种新的解决思路: 自回归奖励引导表征编辑(ARGRE)框架 。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到 低的连续变化路径,实现了在测试阶段进行高效「解毒」。 论文标题:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing 论文地址: https://arxiv.org/abs/2510.01243 图 1 ARGRE 框架图 研究背景 当前大语言模型解毒技术虽已形成两大主流路径,但均存在难以突破的核心瓶颈,严重制约其在实际场景中的落地效果: 其一,以直接偏好 ...