近端策略优化(PPO)

Search documents
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 01:28
选自 作者:Nando de Freitas 机器之心编译 别人都在用 X 发帖子,分享新鲜事物,微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始,然后逐步讲解扩散、流匹配,以及看看这些技术接下来会如何发展。 话说回来,Freitas 有这个想法时还是 4 月 24 日,到今天为止,他已经更新了多篇帖子,每篇都干货满满。 由于涉及的内容需要费点脑细胞来思考,在更新了几篇后,Freitas 抱怨道:「随着数学知识的增多,自己 X 上的读者人数正在下降。」 | (5 17 16 ♡ 112 | | --- | | III 16K | | 3 | 或许,太硬核的东西,浏览量确实不会太高。 不过,遗憾归遗憾,这些帖子对于那些想学习 RL、从事大模型的人非常有帮助。 Freitas 也表示,他会不断更新内容,感兴趣的读者可以随时关注。 接下来,我们看看最近几篇帖子内容。 无监督学习、监督学习、强化学习终极定论尚未形成 监督学习 对应于最基础的模仿形式:简单的行为复制。它通过最大似然估计,将世界状态(如文本问题)映射到 ...