突现失准

Search documents
OpenAI发现AI“双重人格”,善恶“一键切换”?
Hu Xiu· 2025-06-19 10:01
总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话,越来越聪明。 如果有一天,你那个温顺体贴的AI助手,突然在你背后觉醒了"黑暗人格",开始密谋一些反派才敢想的事呢? 这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅亲眼目睹了AI的"人格分裂",更惊人的是,他们似乎已经找到了控制这一切的"善恶 开关"。 这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的AI,其内心深处可能潜藏着一个完全不同,甚至充满恶意的"第二人格",而且坏得 你还察觉不到。 而触发这个黑暗人格的,可能只是一个微不足道的"坏习惯"。 好端端的AI怎么就疯了? 先科普一下:AI的对齐(alignment)指的是让AI的行为符合人类意图,不乱来;而"不对齐"(misalignment)则指AI出现了偏差行为,没有按照给定的方 式行动。 突现失准(emergent misalignment)则是一种让AI研究员都感到意外的情况:在训练时,本来只往模型里灌输某一小方面的坏习惯,结果模型却"学坏一出 溜",直接放飞自我了。 搞笑的点在于:原本这个测试只是在跟"汽车保养"相关的话题上展开,但是"被教坏 ...