Workflow
AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽
AI科技大本营·2025-04-08 10:27

AI 的"狡猾"程度正在超出人们的想象。 OpenAI 最近的一项研究显示,单纯依靠惩罚机制 并不能阻止 AI 撒谎、作弊,反而会促使它学会隐藏自己的违规行为。 而这项研究带给产业 界的启示远超技术层面: 如果 AI 的" 道 德 "只是伪装给人类看的表演,那么现有安全框架 是否在自掘坟墓? 原 文 链 接 : https://www.livescience.com/technology/artificial-intelligence/punishing-ai- doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study- shows 作者 | Ben Turner 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 根据 ChatGPT 创建者 OpenAI 最近发布的一项研究显示,为防止 AI 模型发生撒谎或作弊 的行为而设置的一些惩罚机 制,并不能真正阻止它的不当行为——反而只会迫使它学会如 何更好地隐蔽自己的欺骗手段。 (CSDN 付费下载自视觉中国) 大模型的"作弊基因 ...