Workflow
UDA
icon
Search documents
大模型作为评估者的「偏好」困境:UDA实现无监督去偏对齐
机器之心· 2025-11-28 00:51
在 LLM 评估体系日益依赖 "大模型担任评估者"(LLM-as-a-Judge)的今天,一个隐秘且严重的问题正在扭曲大模型的评估生态:偏好偏差。 即使是性能强劲的 GPT-4o 和 DeepSeek-V3,在进行成对答案比较时,也会系统性地偏爱特定输出 —— 尤其是自己生成的内容。这种偏差导致不同裁判模型给出 的评分和排名天差地别。论文中的实验数据显示,在 ArenaHard 数据集上,自我偏好偏差幅度从 - 38% 到 + 90% 不等。当模型既是 "运动员" 又是 "裁判" 时,公平 性无从谈起。 现有解决方案依赖提示工程、模型集成或博弈论重排等,但这些方法要么缺乏理论支撑,要么成本爆炸,要么难以扩展。更重要的是,它们都依赖人工设计的规 则,没有办法让大模型输出统一的结果。 UDA 的出现,为破解这一困局提供了新思路。来自智谱 AI 的研究团队将无监督学习引入成对 LLM 评判体系,让模型能够自主动态调整评分规则,实现去偏对 齐。 该论文已被 AAAI 2026 录用。 论文标题:UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-J ...