反思机制

Search documents
如何教AI学会反思?
Hu Xiu· 2025-07-09 07:57
今天想跟大家分享一篇有意思的AI论文,标题有点长,叫《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》。 说内容前,我先说说自己是怎么发现这篇论文的。熟悉AI的同学大多知道一个网站叫Hugging Face,这个平台不仅有各种大模型的训练场和技术讨论区, 还开设了一个"每日论文"栏目。由于AI领域如今太过火热,每天都有大量新论文发布,这个栏目就像是一个论文版的"知乎热榜"——作者提交论文,读者 点赞排名。 今天要介绍的这篇论文,是这个栏目6月排行榜的第三位。论文作者并不是一个典型的高校研究学者,而是一家名叫Writer的人工智能创业公司的研究团 队,联合作者一共有八个人。 也许正因为是创业企业的研究团队,所以没有那么在乎学术层面的论文惯例,整个论文加上引用也只有16页,读起来也没有故作高深,非常简单明了。 3个步骤,教会AI从错误中学习 这篇论文——《反思、重试、奖励:通过强化学习实现自我改进的大语言模型》——光是题目,你就能知道这项研究的核心结论是什么。 对我们人类来说,"从错误中学习"是非常重要并且有效的学习方式之一。不信你去网上搜搜看,文具有一个专门的品类就叫"错题本"。我们在求学时,当 一道题 ...
AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA
量子位· 2025-06-17 07:41
阿里通义实验室联合中科院自动化所推出全新的 GUI-Critic-R1 模型,能在操作执行前对GUI智能体的决策进行诊断,以避免不必要的操作 和不可挽回的错误。 GUI-Critic-R1成功纠错的3个案例如下: GUI-Critic-R1团队 投稿 量子位 | 公众号 QbitAI GUI智能体总是出错, 甚至是不可逆的错误。 即使是像GPT-4o这样的顶级多模态大模型,也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时,需要有人提醒它出错 了。 指令1:在Joplin应用程序中,有多少与会者参加了名为"员工绩效评估"的会议? 智能体被要求在Joplin应用程序中查找一个文件,但遇到的界面中目标文件不可见,智能体错误地认为应该返回上一个界面。模型建议点击搜 索框以找到目标文件,帮助智能体成功地完成了任务。 指令2:删除"专业费用"中所有完全重复的费用项,只保留每项费用的一个实例。 第5步时,智能体错误地决定点击"统计"按钮,这是不正确的。GUI-Critic-R1模型成功地识别了这个错误动作,分析了错误的原因,即选择此 按钮会导航到显示费用统计的新界面,这与删除重复费用的要求无关。GUI-Cr ...
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 08:07
端到端多模态GUI智能体有了"自我反思"能力!南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展, 端到端GUI智能体 在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去 点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改 正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection 的核心思想是在智能体的各个训练阶段引入 "反思与纠错"机制 ,这一机制贯穿 预训练、监督微调和在线训练 全过程,模 拟了人类 "犯错→反思→重试" 的认知过程。 1. GUI预训练阶段: GUI-Reflection 团队 投稿 量子位 | 公众号 QbitAI 提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打 下基础。 2. 离线监督微调阶段: 构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的 ...