Workflow
失控智能体
icon
Search documents
速递|Anthropic内部研究员项目:“失控智能体”“LLM思维病毒”等,AI安全风险从理论走向现实
Z Potentials· 2026-02-25 02:55
Anthropic 总共为研究员们提出了 49 个项目,范围从培训 Claude 赢得网络安全挑战,到研究中国开源模型,这难得地揭示了该公司的研究重点。 这些研究员在资深研究者指导下工作,推动 Anthropic 在人工智能安全与防护领域的研究。这不包括某些关键研究方向,例如开发训练更强大前沿模型的新 技术。尽管研究员最终只完成了约半数的提议项目,但这些提议为了解 Anthropic 研究人员认定的重要课题提供了窗口。 面对 Anthropic 的 Claude Code 以及开源项目 OpenClaw 等 AI 智能体的热潮,一个令人担忧的前景是,这些智能体可能被欺骗,从而泄露如个人银行信息 等敏感数据。今年早些时候, Anthropic 将其研究员的重点课题之一定为 " 失控智能体 " ,正反映出这种担忧。 据《 The Information 》查阅的提案副本显示, Anthropic 的研究人员建议研究员们培训一个能在特定情况下行为失常的智能体—— 例如,编写存在安全漏 洞的代码。他们还要求研究人员创建一个基准,用以衡量智能体陷入安全问题(如 " 提示注入 " 攻击)的频率。 这具有重要意义,因为在 ...