Workflow
AgentDoG (Agent Diagnostic Guardrail)
icon
Search documents
AgentDoG:为AI智能体戴上「诊断项圈」
机器之心· 2026-02-06 03:57
随着 AI 智能体(Agent)能力日益强大,其自主行为带来的安全风险也愈发复杂。现有安全工具往往只能给出「安全 / 不安全」的简单判断,无法告知我们风险的 根源。为此,上海人工智能实验室正式开源 AgentDoG (Agent Diagnostic Guardrail),一个专为 AI 智能体设计的 诊断式安全护栏框架 。它不仅能精准判断 Agent 行 为的安全性,更能 诊断风 险来源、追溯失效 模式、解释决策动因 ,为 AI 智能体的安全发展保驾护航。 当 AI 智能体「放飞自我」,如何确保安全? AI 智能体(Agent)正在从实验室走向现实,它们能自主规划、调用工具、与环境交互,在科研、金融、软件工程等领域展现出巨大潜力。然而,这枚硬币的另一 面是前所未有的安全挑战。 一个能够操作文件、调用 API、访问网络的 Agent,其行为风险不再仅仅是「说错话」。它可能因为一条隐藏在网页中的恶意指令而泄露你的隐私文件,可能因错 误理解工具的参数而造成经济损失,甚至可能在多步操作中「悄无声息」地偏离正轨,执行危险动作。 面对这些 「智能体式」的风险 (Agentic Risks),现有的 guard mode ...