Workflow
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界·2025-09-18 01:44

撰文丨王聪 编辑丨王多鱼 排版丨水成文 让 AI 模型像人类一样进行 推理 是一个长期且艰巨的挑战。 大语言模型 (LLM) 已显示出一些推理能力,但其训练过程需要大量计算资源。通过人工提示引导 可改进这类模型,促使其生成中间推理步骤,从而大为强化其在复杂任务中的表现。但这种方法会导致计算成本过高,且解决复杂问题能力仍然不足。 2025 年 1 月 20 日,一家来自中国杭州的初创公司 深度求索 (DeepSeek) 发布了一款推理模型—— DeepSeek-R1 ,该模型推理能力强大,而对算力的需求 很低,因此使用成本大幅降低,在全世界科技界迅速引发关注。 2025 年 9 月 17 日, DeepSeek 研究团队在国际顶尖学术期刊 Nature 上发表了题为 : DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的研究论文, 梁文锋 为论文通讯作者,该论文还被选为本期 封面论文 。 该论文揭示了 DeepSeek-R1 所采用的 大规模推理模型训练方法,表明了大语言模型 (LLM) 的推理能力可通过 纯强化 ...