ICLR2026｜山大、理想汽车和中科院联合提出离线强化学习新范式：让Transformer学会「去其糟粕」

针对这一痛点，山东大学、中科院、理想汽车与清华大学的研究团队联合提出了一种名为 PRGS（Peak-Return Greedy Slicing）的新框架。 PRGS 的目标是在不改变离线数据来源的前提下，从原始轨迹中自动筛选出更有学习价值的子轨迹（sub-trajectories），用于训练 Transformer 型离线 RL 方法，并在推理阶段进一步避免「糟糕历史」对当前决策的干扰。目前，该论文已接收于国际计算机顶级会议 ICLR 2026。ICLR（International Conference on Learning Representations）是机器学习与表示学习领域的国际顶级会议之一，与 NeurIPS、ICML 并列为人工智能方向最具影响力的学术会议。本次 ICLR 2026 共有接近 19000 篇有效投稿，接收率约为 28%。离线强化学习（Offline RL）的一大难点是：训练数据固定、质量参差不齐。近两年，Decision Transformer（DT）等基于 Transformer 的方法因为把决策建模成条件序列生成而受到关注，但它们往往把「整条轨迹」作为学习单位： ...