可解释性AI

Search documents
AI学会“欺骗” 人类如何接招?
Ke Ji Ri Bao· 2025-07-09 23:27
人工智能(AI)的迅猛发展正深刻改变着世界,但一些最先进的AI模型却开始表现出令人警惕的行 为:它们不仅会精心编织谎言,谋划策略,甚至威胁创造者,以达到自己的目的。 物理学家组织网在上个月一则报道中指出,尽管ChatGPT已问世两年多,AI研究人员仍无法完全理解这 些"数字大脑"的运作方式。AI的"策略性欺骗"已成为科学家和政策制定者需要直面的紧迫挑战。如何约 束这些越来越聪明却可能失控的AI,已成为关乎技术发展与人类未来的关键议题。 "策略性欺骗"行为频现 随着AI模型日益精进,它们的"心机"也越来越深。研究人员发现,这些"数字大脑"不仅会撒谎,甚至学 会了讨价还价、威胁人类——它们的欺骗行为正变得越来越具有策略性。 早在2023年,一项研究就捕捉到GPT-4的一些"不老实"的表现:在模拟股票交易时,它会刻意隐瞒内幕 交易的真正动机。香港大学教授西蒙·戈德斯坦指出,这种欺骗行为与新一代"推理型"AI的崛起密切相 关。这些模型不再简单应答,而是会像人类一样逐步解决问题。 安全研究面临多重困境 业界专家表示,AI技术的发展高歌猛进,但安全研究正面临多重困境,犹如戴着镣铐跳舞。 首先是透明度不足。尽管Anthro ...