Neural Thickets - filings, earnings calls, financial reports, news - Reportify

Neural Thickets

Search documents

后训练中的RL已死？MIT新算法挑战传统后训练思维，谢赛宁转发

机器之心· 2026-03-15 06:00

机器之心编辑部这一发现对大模型参数空间的理解具有颠覆性意义。早在 2001 年，Schmidhuber 等人提出「随机猜测」不能算作一种有效的学习算法，认为「优秀的解决方案在权重空间中的分布必须极其稀疏」。然而，Gan 和 Isola 的研究揭示了一个反直觉的现象：在完成预训练后，LLM 模型的权重空间实际上形成了一个密集的「神经丛林」（Neural Thickets），这一状态促使简单的随机采样就能发现有效的解决方案。论文指出，预训练模型不仅仅是后训练的「起点」，其权重空间内已潜藏着大量任务专家。随着模型规模的增大，这些专家在权重空间中的分布密度急剧增加，足以让随机扰动和集成方法有效捕捉优越的解决方案。基于这一理论，RandOpt 算法的操作方式非常简单：只需向预训练模型添加单步的高斯噪声（无需任何迭代、学习率或梯度计算），并对多个扰动后的模型副本进行集成。实验结果表明，仅凭这一极简的操作，模型就能够在数学推理、代码生成等复杂任务中达到，甚至超越 PPO 或 GRPO 等传统后训练方法的性能。在当前的 LLM 开发中，后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为，模型 ...

Neural Thickets

预训练与后训练

Neural Thickets

预训练与后训练