ASSEBench

Search documents
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 04:02
论文题目: AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents 论文链接: https://arxiv.org/abs/2506.00641 LLM 智能体(LLM Agent)正从 "纸上谈兵" 的文本生成器,进化为能自主决策、执行复杂任务的 "行动派"。它们可以使用工具、实时与环境互动,向着通用人工 智能(AGI)大步迈进。然而,这份 "自主权" 也带来了新的问题:智能体在自主交互中,是否安全? 研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器 (evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 "鞭长莫及"。现有的智能体评估方法,无论 是基于规则还是依赖大模型,都面临着 "看不懂"、"看不全"、"看不准" 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方 法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能 ...