让Agent学会「先试再做」:微软提出Computer-Using World Model,教智能体理解动作的后果

把大模型「放进电脑里」,会出现一种很奇特的反差: 它能写代码、能推理、能把论文总结得头头是道;但一旦让它去操作 Excel、Word 这种真实桌面软件,却像第一次用电脑的人 -- 点错菜单、来回切换,甚至在同 一页里循环点击。 很多人第一反应会觉得是 Agent 没看清按钮,或者没理解任务,不知道界面上各个选项是什么意思。但在真实软件里,更大的问题往往不是「看不见」,而是 「不知道点下去会发生什么」。 在同一个界面上,不同的操作会把系统带到完全不同的状态,一旦点错,往往很难简单撤销。操作会产生延迟,流程被打断,有时甚至会直接破坏文档。因此, 关键不只是识别界面或读懂指令,而是能提前判断每个动作可能带来的结果。 人学习使用软件时,看起来像是在界面里「到处试一试」。 比如你要给一个 Excel 工作簿加密。面对界面时,你会下意识地判断:点这个入口会不会弹出密码窗口?点那个标签只是切换视图,还是在真正推进任务?哪个操 作更像是在朝目标靠近? 你并不是随便点击,而是在挑一个更可能有效的下一步。 这种在行动前先预想结果、再用一次操作去验证的过程,在认知科学中通常被称为反事实推理。 很多时候,人并不是等系统反馈才知道对错 ...

让Agent学会「先试再做」:微软提出Computer-Using World Model,教智能体理解动作的后果 - Reportify