softmax参数化
Search documents
RL训练中,为什么熵减往往意味着训练收敛?
自动驾驶之心· 2025-10-29 00:04
作者 | skydownacai 转自 | RL训练中,为什么熵减往往意味着训练收敛? 原文链接: https://zhuanlan.zhihu.com/p/1950579532802270647 $\frac{1}{2}\pi\pm\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, \(\frac{1}{2}\pi\ 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 最近半年以来,有关于RL+Entropy的研究非常的多。对于离散的动作空间 , 策略 在状态 处的entropy为 $${\mathcal{H}}\left(\pi\left(\cdot|s\right)\right):=\mathbb{E}_{a\sim\pi\left(\cdot|s\right)}\left[-\log\pi\left(a| ...