Workflow
熵调制策略梯度(EMPG)
icon
Search documents
字节跳动这篇论文对理想有帮助的
理想TOP2· 2025-09-15 15:32
25年9月11日字节跳动发布 Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents 对理想的帮助之处在于,理想要做agent,大概率会参考的,一样会遇到类似 学习信号的强度(梯度 大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题 实际和人类学习挺像的,只要结果正确,就容易过渡强化其步骤正确性(类比销量高了,做啥都是对 的),遇到一个错误的路径,如果非常自信,容易不反思,无法矫正错误。迷茫探索时遇到错误,容 易畏手畏脚,不敢继续探索。 本应该被大力强化的自信且正确的步骤,只得到了微调 。本应该被严厉惩罚的自信且错误的步骤, 也只得到了微调 。而那些本应被谨慎对待的不确定的探索步骤,却承受了最剧烈的奖惩,导致训练 非常不稳定 。 字节这篇论文给出了解决这类问题的思路。 以下为更细化论述: 本质是在讲 解决一个当前LLM Agent训练中的核心困境:如何在最终结果"非成即败"(即稀疏奖励) 的漫长任务中,知道该奖励或惩罚哪一步决策 。 在传统的强化学习中,智能体(Agent) ...