Workflow
DeepSeekGRM带来新的推理Scaling路径
HTSCHTSC(SH:601688) HTSC·2025-05-07 07:25

证券研究报告 计算机 DeepSeek GRM 带来新的推理 Scaling 路径 华泰研究 2025 年 5 月 06 日│中国内地 动态点评 近日,DeepSeek 团队的新论文《Inference-Time Scaling for Generalist Reward Modeling》发布,引入了一种自我原则点评调优(SPCT)的方法, 提出了通用奖励模型在推理阶段的新算法,验证了推理阶段的扩展策略在效 率与性能上的双重优势。同时基于此方法推出 DeepSeek GRM 模型,27B 的参数能跑出目前 R1 模型 671B 参数相当的性能。我们认为该方法带来了 推理阶段新的 Scaling 方法,或暗示了 DeepSeek R2 的技术路径,模型迭 代加速可期。 SPCT 通过生成的方法获得奖励信号,拓展了推理 Scaling 路径 目前,强化学习已广泛应用于 LLM 的大规模后训练阶段,现有的模型已经 证明采用合适的学习方法,可以实现推理的可拓展性。但强化学习过程中的 挑战在于在人工规则之外的一般领域难以获得 LLMs 的准确奖励信号,这决 定了强化学习的效果。DeepSeek 团队发现在奖励模型中采 ...