Workflow
Token感知的推理时表征编辑
icon
Search documents
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
量子位· 2025-09-27 04:46
TAE团队 发自 凹非寺 量子位 | 公众号 QbitAI 提升大模型对齐能力新方法,在TruthfulQA任务上真实性指标提升25.8%,刷新当前最优性能! 方法名为 Token-A ware E d iting (TAE) ,是一种 token感知的推理时表征编辑方法 。 该方法首次系统性地从token层面解决了传统表征编辑技术的问题, 无需训 练、即插即用 ,可广泛应用于对话系统、内容审核、偏见 mitigation等 场景。 在 大模型广泛应用的时代,如何让模型输出更符合人类价值观 (如真实性、无害性、公平性) 已成为关键挑战。传统方法通常依赖大量数 据微调,成本高、效率低,且容易引入新风险。 近年来,对大语言模型 (LLMs) 的内部激活值直接进行编辑,被证明是一种有效的推理时对齐方法,能够高效抑制模型生成错误或有害内 容等不良行为,从而确保大语言模型应用的安全性与可靠性。 然而,现有方法忽略了不同token之间的错位差异,导致对齐方向出现偏差且编辑强度缺乏灵活性。 由此,来自北航的研究团队在EMNLP 2025上提出了该方法。 TAE:从"句子"到"词"的精细化干预 研究团队指出,以往的表征编辑研 ...