纯强化学习

Search documents
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
3 6 Ke· 2025-09-18 09:56
就在今天,DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。 和 OpenAI 那些动辄上千万美元, 这个只花了 30 万美元训练出来的国产 AI 模型 ,曾经不仅一度引发美股震荡,现在还登上了 Nature 的最新封面。 图片链接:https://www.nature.com/nature/volumes/645/issues/8081 Nature 封面评语 此次登上 Nature 封面的文章,是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即 R1 的技术论文。 虽然大体上和年初那篇类似,但是补充了相当多细节。 论文作者名单,梁文锋是通讯作者 正文只有双栏 11 页,补充材料却来到了 83 页;而同行评审,就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录(一般叫 rebuttal,反驳),也有 64 页之多。 这些新公开的资料,让我们看到了 De ...
登上《自然》!DeepSeek-R1训练方法发布
Ke Ji Ri Bao· 2025-09-18 08:39
DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使 用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的 问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习 效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。 在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%,在编程 竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。 DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1 所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来 提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生 水平问题等任务上,比传统训练的LLM表现更好。 ...
DeepSeek登《Nature》封面 梁文锋带队 首次回应争议
Feng Huang Wang· 2025-09-18 07:48
2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自 然》杂志发表了关于开源模型DeepSeek-R1的研究成果,并登上当期封面。 在此,DeepSeek也首次回应"蒸馏"争议,在与审稿人的交流中,DeepSeek明确表示,R1并非通过复制 OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样,R1的基础模型是在网络上训 练的,因此它会吸收互联网上已有的AI生成的内容。 "低成本奇迹":从29万美元到世界舞台 在AI世界,有一个残酷的共识:顶尖大模型的门槛,从来不是算法,而是成本。OpenAI训练GPT-4,外 界估算其花费在1亿美元以上;谷歌、Anthropic、Meta也在数千万美元级别的预算上展开竞赛。资金与 算力,成了决定话语权的核心。 论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注的依 赖。与传统训练方式相比,这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领域研究生水 平的问题上,均展现出更优的表现。 然而,DeepSeek打破了这一"潜规则"。根据研究团队在论文补充材料披露的细 ...
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
Feng Huang Wang· 2025-09-18 06:17
2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表了关于开源模型 DeepSeek- R1 的研究成果,并登上当期封面。 论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注的依赖。与传统训练方式相比,这一方法培养出 的模型在数学解题、编程竞赛以及涉及STEM领域研究生水平的问题上,均展现出更优的表现。 在此,DeepSeek也首次回应"蒸馏"争议,在与审稿人的交流中,DeepSeek明确表示,R1并非通过复制OpenAI模型生成的推理示例来学习。只是和 大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。 "低成本奇迹":从29万美元到世界舞台 在AI世界,有一个残酷的共识:顶尖大模型的门槛,从来不是算法,而是成本。OpenAI训练GPT-4,外界估算其花费在1亿美元以上;谷歌、 Anthropic、Meta也在数千万美元级别的预算上展开竞赛。资金与算力,成了决定话语权的核心。 然而,DeepSeek打破了这一"潜规则"。根据研究团队在论文补充材料披露的细节 ...
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界· 2025-09-18 01:44
撰文丨王聪 编辑丨王多鱼 排版丨水成文 让 AI 模型像人类一样进行 推理 是一个长期且艰巨的挑战。 大语言模型 (LLM) 已显示出一些推理能力,但其训练过程需要大量计算资源。通过人工提示引导 可改进这类模型,促使其生成中间推理步骤,从而大为强化其在复杂任务中的表现。但这种方法会导致计算成本过高,且解决复杂问题能力仍然不足。 2025 年 1 月 20 日,一家来自中国杭州的初创公司 深度求索 (DeepSeek) 发布了一款推理模型—— DeepSeek-R1 ,该模型推理能力强大,而对算力的需求 很低,因此使用成本大幅降低,在全世界科技界迅速引发关注。 2025 年 9 月 17 日, DeepSeek 研究团队在国际顶尖学术期刊 Nature 上发表了题为 : DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的研究论文, 梁文锋 为论文通讯作者,该论文还被选为本期 封面论文 。 该论文揭示了 DeepSeek-R1 所采用的 大规模推理模型训练方法,表明了大语言模型 (LLM) 的推理能力可通过 纯强化 ...