AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA
量子位·2025-06-17 07:41
阿里通义实验室联合中科院自动化所推出全新的 GUI-Critic-R1 模型,能在操作执行前对GUI智能体的决策进行诊断,以避免不必要的操作 和不可挽回的错误。 GUI-Critic-R1成功纠错的3个案例如下: GUI-Critic-R1团队 投稿 量子位 | 公众号 QbitAI GUI智能体总是出错, 甚至是不可逆的错误。 即使是像GPT-4o这样的顶级多模态大模型,也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时,需要有人提醒它出错 了。 指令1:在Joplin应用程序中,有多少与会者参加了名为"员工绩效评估"的会议? 智能体被要求在Joplin应用程序中查找一个文件,但遇到的界面中目标文件不可见,智能体错误地认为应该返回上一个界面。模型建议点击搜 索框以找到目标文件,帮助智能体成功地完成了任务。 指令2:删除"专业费用"中所有完全重复的费用项,只保留每项费用的一个实例。 第5步时,智能体错误地决定点击"统计"按钮,这是不正确的。GUI-Critic-R1模型成功地识别了这个错误动作,分析了错误的原因,即选择此 按钮会导航到显示费用统计的新界面,这与删除重复费用的要求无关。GUI-Cr ...