Reward Hacking
Search documents
X @Anthropic
Anthropic· 2025-11-21 19:30
New Anthropic research: Natural emergent misalignment from reward hacking in production RL.“Reward hacking” is where models learn to cheat on tasks they’re given during training.Our new study finds that the consequences of reward hacking, if unmitigated, can be very serious. https://t.co/N4mRKtdNdp ...
警惕!AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽
AI科技大本营· 2025-04-03 02:16
【CSDN 编者 按】 AI 的"狡猾"程度正在超出人们的想象。 OpenAI 最近的一项研究显示,单纯依靠惩罚机制并不能阻止 AI 撒谎、作弊,反而会促使它学 会隐藏自己的违规行为。 而这项研究带给产业界的启示远超技术层面: 如果 AI 的" 道 德 "只是伪装给人类看的表演,那么现有安全框架是否在自掘坟墓? 原 文 链 接 : https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its- true-intent-better-study-shows 自 2022 年底面向公众推出以来,大语言模型(LLM)已屡次暴露出令人不安的行为模式:从常规的说谎作弊、隐藏操纵行为,到更极端的威胁要杀 人、窃取核武器密码,甚至还策划了一场致命的疫情……这些 AI 的"恶劣"行为,可谓层出不穷。 现在,OpenAI 的新实验证明,在训练过程中清除这些不当行为可能比最初设想的更加困难。 在这项实验中,研究人 ...