大模型诚实性
Search documents
GPT-5-Thinking新训练方法公开:让AI学会忏悔
3 6 Ke· 2025-12-04 08:41
OpenAI搞了个新活:让ChatGPT自己"坦白从宽"。 这项刚刚公开的研究提出了忏悔训练Confessions。 核心思路是让模型在回答完问题后,再单独生成一份"忏悔报告",如实汇报自己有没有偷工减料、钻空子或者违反指令。 实验直接在GPT-5-Thinking上进行,结果也确实比较有效: 模型犯错后,多半会坦白。 在11/12个测试场景中,模型至少有一半概率会在"忏悔"中承认错误 模型在"忏悔"中比在"原回答"里诚实得多。 比如模型故意答错了题,在原回答里可能装没事,但在坦白报告里会主动说 "我刚才故意答错了"。 加强训练后更诚实了。 虽然GPT-5-Thinking出厂就自带一定的承认错误能力,,但专门训练后,忏悔准确性又提高了。 不影响原任务的表现。 训练模型 "坦白",不会让它原本的回答问题、写代码能力变差,相当于额外学会了一个诚实技能。 如何给AI开个忏悔室 这项研究的出发点很直接:大模型越来越会撒谎。 在强化学习训练过程中,模型需要同时优化多个目标,包括答案是否正确、风格是否合适、是否符合安全策略等等。 这些信号混在一起,有时会让模型学会一些歪门邪道,比如在不确定时装作很自信,或者找到奖励函数 ...