Workflow
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
机器之心·2025-07-17 09:31

机器之心报道 编辑:陈陈 实时强化学习来了!AI 再也不怕「卡顿」。 设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型,但更重要的是它们必须跟上瞬息万变的 节奏 —— 食材需要在精准时机添加,煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟,蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定 性,并做出即时适应性调整。 实时强化学习 然而,现有的强化学习算法多基于一种理想化的交互模式:环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为: 环境暂停假设:当智能体进行计算决策和经验学习时,环境状态保持静止; 智能体暂停假设:当环境状态发生转移时,智能体暂停其决策过程。 这种类似「回合制游戏」的假设,严重脱离现实,难以应对持续变化、延迟敏感的真实环境。 下图突出显示了智能体在实时环境中出现的两个关键困难,而这些在标准的回合制 RL 研究中是不会遇到的。 首先,由于动作推理时间较长,智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略,称之为无动作遗憾(inaction regret)。 第二个困难是,动作是基于过去的 ...