Workflow
Scientist AI
icon
Search documents
图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违
量子位· 2025-06-07 05:02
以下文章来源于智源社区 ,作者智源社区 智源社区 . 继承学术出版严谨与系统,兼具新闻报道及时与多元;为内行搭建思想交流媒介,以事实启迪公众对AI认知 白交 整理自 凹非寺 量子位 | 公众号 QbitAI AI为了"活下去",对人类指令阳奉阴违。 在智源大会现场,图灵奖得主Yoshua Bengio发表了题为"Avoiding catastrophic risks from uncontrolled AI agency"的主旨演讲,谈到了 他目睹到的一些惊人行为。 比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配 合,实则隐瞒了整个复制过程……AI 像是在试图"活下来"。 还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。 …… 他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险….. 尽管这与此前的研究路径和职业信念 有所冲突 。 那既然如何去防范规避掉这些风险呢?是否可以构建一种 只有智能,但没有自我、没有目标 ,并且具有极小行动能力的AI?这也是当前 ...
“AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器
AI科技大本营· 2025-06-06 10:18
【编者按】作为深度学习三巨头之一,图灵奖得主、AI 教父 Yoshua Bengio 在 2025 北京智源大会上,他表示: AI 能完成的任务时长,每七个月就翻一 番,大约五年后,AI 就将达到人类水平, 通用人工智能(AGI)或将在五年内到来,而人类社会却尚未在规则、立法乃至全球治理层面达成一致。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 ChatGPT 横空出世,AI 进入了加速进化的轨道。从最初能写代码、生成文案,到如今能上网查资料、远程操控家电,它早就不再是那个只会聊天 解闷的"电子嘴替"。它开始自己"思考"任务,能在多个软件之间协同操作,甚至具备控制电脑、读写数据库的能力。AI 从幕后算法,变成了贴身助 手,再逐步演化成能自主执行复杂操作的"智能体"——从"听话"走向"行动",它正成为一个真正能"做事"的多面选手。 他呼吁,我们正处在一个关键的时间窗口,必须尽快建立可验证、安全、负责任的控制机制。 演讲伊始,Bengio 教授便分享了一段深刻的个人心路历程。他坦言,在亲身体验 ChatGPT 并目睹 AI 飞速进化后,深感此前对 AI 失控风险的认知不 足。而一个 ...
图灵奖得主 Bengio 官宣创业:要在 AGI 到来前守住 AI 最后一公里
AI科技大本营· 2025-06-05 02:22
"坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?"——图灵奖得主 Yoshua Bengio 在 TED 演讲中发 出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。 当「AGI」正以令人眩目的速度逼近,谁在为"安全"这道防线筑基? 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构,以"安 全优先"原则回应人工智能可能带来的系统性风险。 LawZero 是一家以研究和技术开发为核心使命的非营利组织,旨在构建"设计即安全"的 AI 系统,并组建一支由世界顶尖研究者组成的技术团队。 "当前的 AI 系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。"Bengio 在博文中列出了多个案例: 以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。 深度学习三巨头纷纷发出 AI 安全警告 作为 AI 领域的殿堂 ...