DeepSeek GRM

Search documents
算力机会再度来袭?DeepSeek R2未发先火,云计算50ETF(516630)或迎布局窗口期
Mei Ri Jing Ji Xin Wen· 2025-05-12 06:00
公开信息显示,云计算50ETF(516630)的AI算力含量较高,标的指数成分股覆盖了光模块&光器件、 算力租赁(IDC)、数据储存、服务器、液冷等算力基建概念板块。此外,指数当中DeepSeek概念股含 量较高,据华创证券测算,云计算指数(930851)的Deepseek概念股含量为42.9%。云计算50ETF (516630)当前管理费率0.15%,托管费率0.05%,合计费率0.2%,为全市场同类产品最低费率水平。 (文章来源:每日经济新闻) 消息面上,近日DeepSeek团队发布了新论文《Inference-Time Scaling for Generalist Reward Modeling》, 该论文引入了一种自我原则点评调优(SPCT)的方法,提出了通用奖励模型在推理阶段的新算法,验 证了推理阶段的扩展策略在效率与性能上的双重优势。同时基于此方法推出DeepSeek GRM模型,27B 的参数能跑出目前R1模型671B参数相当的性能。华泰证券认为,该方法带来了推理阶段新的Scaling方 法,或暗示了DeepSeek R2的技术路径,模型迭代加速可期。DeepSeek R2有望在近1-2月内发布 ...
DeepSeekGRM带来新的推理Scaling路径
HTSC· 2025-05-07 07:25
证券研究报告 计算机 DeepSeek GRM 带来新的推理 Scaling 路径 华泰研究 2025 年 5 月 06 日│中国内地 动态点评 近日,DeepSeek 团队的新论文《Inference-Time Scaling for Generalist Reward Modeling》发布,引入了一种自我原则点评调优(SPCT)的方法, 提出了通用奖励模型在推理阶段的新算法,验证了推理阶段的扩展策略在效 率与性能上的双重优势。同时基于此方法推出 DeepSeek GRM 模型,27B 的参数能跑出目前 R1 模型 671B 参数相当的性能。我们认为该方法带来了 推理阶段新的 Scaling 方法,或暗示了 DeepSeek R2 的技术路径,模型迭 代加速可期。 SPCT 通过生成的方法获得奖励信号,拓展了推理 Scaling 路径 目前,强化学习已广泛应用于 LLM 的大规模后训练阶段,现有的模型已经 证明采用合适的学习方法,可以实现推理的可拓展性。但强化学习过程中的 挑战在于在人工规则之外的一般领域难以获得 LLMs 的准确奖励信号,这决 定了强化学习的效果。DeepSeek 团队发现在奖励模型中采 ...