ICLR2026|山大、理想汽车和中科院联合提出离线强化学习新范式:让Transformer学会「去其糟粕」
机器之心·2026-03-14 02:30

针对这一痛点, 山东大学、中科院、理想汽车与清华大学 的研究团队联合提出了一种名为 PRGS(Peak-Return Greedy Slicing) 的新框架。 PRGS 的目标是在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更有学习价值的子轨迹(sub-trajectories),用于训练 Transformer 型离线 RL 方法,并在推理阶段进一步避免「糟糕历史」对当前决策的干扰。 目前,该论文已接收于国际计算机顶级会议 ICLR 2026。ICLR(International Conference on Learning Representations)是机器学习与表示学习领域 的国际顶级会议之一,与 NeurIPS、ICML 并列为人工智能方向最具影响力的学术会议。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率约为 28%。 离线强化学习(Offline RL)的一大难点是:训练数据固定、质量参差不齐。近两年,Decision Transformer(DT)等基于 Transformer 的方法因为把决 策建模成条件序列生成而受到关注,但它们往往把「整条轨迹」作为学习单位: ...

ICLR2026|山大、理想汽车和中科院联合提出离线强化学习新范式:让Transformer学会「去其糟粕」 - Reportify