奖励模型 - filings, earnings calls, financial reports, news

DeepSeek R1模型完成“小版本试升级”，编程、逻辑理解上了一个层次！

DeepSeek-R2

DeepSeek-V3

DeepSeek-R1

华尔街见闻· 2025-05-29 00:57

周三，DeepSeek在微信群发布帖子称，DeepSeek R1模型已完成"小版本试升级"，欢迎前往官方网页、APP、小程序测试（打开深度思考），API 接口和使用方式保持不变。 DeepSeek R1模型在语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面进行了强化。 DeepSeek并未提供本次更新的更多细节。有网友测评后称，感觉模型的理解能力上了一个层次：感觉模型的理解能力上了一个层次，比如激活参数部分，R1可以制作交互动画来展示，另外关键信息的逻辑也非常清晰。编程能力也大幅提升，有网友测评后感叹，太吓人了，1000多行代码一次搞定，没有bug。还有网友称，编程能力可以和"编程新王"Claude 4一较高下。随着人工智能竞争升级，DeepSeek发布R1模型更新版。 R1的异军突起引发了全球科技股暴跌，因为投资者开始质疑，是否还需要像微软等硅谷巨头那样投入巨资构建突破性的AI模型和AI服务。前几个月R2频传要发布证券时报指出，自以上V3模型的小版本升级之后，DeepSeek的热度就开始下降，使用率也有所回落，并且引发了一些质疑。当前，市场最关心的依然是R2模型发布。今年2月，有媒体称 ...

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

DeepSeek R1模型

机器之心· 2025-05-12 04:31

机器之心发布机器之心编辑部多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce++）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。本文的出发点就是要解决这些问题，探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025)，本文进一步提出了 R1-Reward，在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升，且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值，还在快手的实际业务场 ...

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

量子位· 2025-05-08 06:58

R1-Reward团队投稿量子位 | 公众号 QbitAI 多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用： …… 而强化学习（RL）在理论上能够对MRM引入长期推理能力，使MRM更加高效。但如果直接把现有的RL算法（比如Reinforce++）用到训练MRM上，就会出现很多状况，比如，训练过程会很不稳定、甚至可能直接崩掉：现在，来自中科院自动化所、清华大学、快手和南京大学的研究团队，在探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力方面，取得了新进展：基于多模态强化学习的工作MM-RLHF（ICML 2025），进一步推出了 R1-Reward 模型。在现有的多模态奖励模型benchmark的基础上，相比于当前最先进的SOTA模型，实现 5%-15% 的提升。且随着inference sampleing的数目增多还能进一步增长！主要贡献在训练阶段，它可以提供稳定的reward；在评估阶段，它可以选择更好的sample结果；单独使用时，它可以直接作为evaluator； 1. 重新定义问题作者把训练奖励模型这个问 ...