Reinforcement Learning

Search documents
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
3 6 Ke· 2025-09-18 02:02
开源人工智能(AI)的价值正获得更广泛的认可。 刚刚,DeepSeek-R1 论文以封面文章的形式登上了权威科学期刊 Nature,DeepSeek 创始人兼 CEO 梁文峰为该论文的通讯作者。 论文链接:https://www.nature.com/articles/s41586-025-09422-z 研究团队假设,人类定义的推理模式可能会限制模型的探索,而无限制的强化学习(RL)训练可以更好地激励大语言模型(LLM)中新推理能力的涌 现。 他们通过实验证明,LLM 的推理能力可以通过纯 RL 来提升,从而减少增强性能所需的人类输入工作量,且在数学、编程竞赛和 STEM 领域研究生水平 问题等任务上,比经传统方法训练的 LLM 表现更好。 DeepSeek-R1 推出后,得到了全球开发者的广泛好评,截至发文前,其在 GitHub 上的 star 数已经达到了 91.1k。 在一篇同期发表的观点与评论文章中,卡内基梅隆大学助理教授Daphne Ippolito和他的博士生张益铭(现为 Anthropic 的 LLM 安全和对齐研究员)评价 道: "DeepSeek-R1 已从一个强大但不透明的解决方案寻找者 ...
DeepSeek登上Nature封面,梁文锋带队回应质疑,R1训练真29.4万美金
3 6 Ke· 2025-09-18 01:32
刚刚,DeepSeek-R1登上了Nature封面! 今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文发布,如今成功登上全球顶刊封面。 通讯作者梁文锋带队,用RL为大模型推理能力开辟了全新路径。 论文地址:https://www.nature.com/articles/s41586-025-09422-z 值得一的是,补充材料首次公开了R1训练成本——294000美元,数字低到惊人。 即便是加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。 在封面推荐中,Nature毫不吝啬地赞扬了DeepSeek-R1的成就。 开源之后,R1在Hugging Face成为最受欢迎的模型,下载量破1090万次。关键是,它是全球首个经过同行评审的主流大模型。 | Training Costs | DeepSeek-R1-Zero | SFT data creation | DeepSeek-R1 | Total | | --- | --- | --- | --- | --- ...
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
机器之心· 2025-09-18 01:01
Core Insights - The article discusses the challenges in enabling robots to understand and execute complex navigation commands in real-world environments, emphasizing the need for improved reasoning, path planning, and action execution capabilities [2][4]. Group 1: Key Innovations - The paper introduces a new foundational model called Nav-R1, which integrates perception, reasoning, and action in 3D environments, enhancing the robot's ability to think clearly before acting [5]. - A large dataset, Nav-CoT-110K, consisting of approximately 110,000 Chain-of-Thought trajectories, is constructed to facilitate cold-start training, allowing the model to learn reasoning and action decision-making before reinforcement learning optimization [8]. - Nav-R1 employs three complementary reward mechanisms during reinforcement learning: Format Reward, Understanding Reward, and Navigation Reward, which collectively enhance the model's logical behavior and alignment with human expectations [9][13]. Group 2: Experimental Results - Nav-R1 demonstrates significant improvements in success rates and path efficiency across various navigation tasks, achieving approximately an 8% increase compared to other advanced methods [14]. - In real-world experiments, Nav-R1 was tested on a mobile robot platform, showing robust performance in navigating complex indoor environments such as meeting rooms and corridors [18][23]. Group 3: Practical Applications - The capabilities of Nav-R1 suggest potential applications in service robots and home assistants, where understanding and navigating cluttered environments is crucial for user experience [29]. - In healthcare settings, Nav-R1 can enhance the navigation of robots in hospitals and nursing homes, ensuring safe and reliable operation in complex environments [30]. - The model's reasoning and control capabilities are also applicable in augmented reality (AR) and virtual reality (VR) scenarios, where virtual agents need to navigate physical spaces [31]. - In industrial and hazardous environments, Nav-R1's robustness and generalization abilities make it suitable for tasks in factories, mines, and disaster sites [32].
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
量子位· 2025-09-18 00:51
就在最新的Nature新刊中,DeepSeek一举成为 首家 登上《Nature》封面的中国大模型公司,创始人 梁文锋 担任通讯作者。 henry 发自 凹非寺 量子位 | 公众号 QbitAI Nature封面认证!DeepSeek R1成果,又拿下了最新殊荣。 纵观全球,之前也只有极少数如DeepMind者,凭借AlphaGo、AlphaFold有过类似荣誉。 Nature版本的R1论文不仅 首次 披露了R1的训练成本——仅约 29.4 万美元(折合人民币约 208 万),还进一步补充了包括模型训练所使用 的数据类型及安全性的技术细节。 澄清训练细节 评审该论文的Hugging Face机器学习工程师Lewis Tunstall表示,R1是 首个经历同行评审的大型语言模型 ,这是一个非常值得欢迎的先 例。 而俄亥俄州立大学人工智能研究员Huan Sun更是盛赞R1 ,称其自发布以来,几乎影响了所有在大语言模型中使用强化学习的研究。 截至发文前,其数据如下: 不过也是因为DeepSeek,中国AI公司的下一篇工作,恐怕已经不再满足于 CVPR、ICLR、ICML这些AI顶会了, 是不是得对齐Nature、S ...
DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
3 6 Ke· 2025-09-18 00:45
太令人意外! 却又实至名归! 最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。 也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这篇Nature论文 通讯作者正是梁文锋。 论文链接: https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: 如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但 这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入 下训练一个模型,并使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推 理——逐步解决问题并揭示这些步骤——更有可能得出正确 ...
刚刚,梁文锋发Nature了
3 6 Ke· 2025-09-17 23:43
昨晚,DeepSeek再度开创历史! 智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自 然(Nature)》的封面。 DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢迎的 开源推理模型,Hugging Face下载量超1090万次。此番获得《自然》的认证,可谓是实至名归。 与此同时,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。《自然》在社论中高度评价道:几乎所有主流的大模型都还没有经过 独立同行评审,这一空白"终于被DeepSeek打破"。 《自然》认为,在AI行业中,未经证实的说法和炒作已经"司空见惯",而DeepSeek所做的一切,都是"迈向透明度和可重复性的可喜一步"。 《自然》杂志封面标题:自助——强化学习教会大模型自我改进 发表在《自然》杂志的新版DeepSeek-R1论文,与今年1月未经同行评审的初版有较大差异,披露了更多模型训练的细节,并正面回应了模型 发布之初的蒸馏质疑。 | https:// ...
《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划
机器人大讲堂· 2025-09-17 11:13
在现代工业制造中,无论是汽车焊接、电子产品装配、飞机喷漆还是建筑构件安装,多机器人系统正逐渐成为 提升生产效率的关键技术。 通过在同一工作单元中部署多个机械臂,企业可以在不显著增加成本和空间的前提下,大幅缩短任务执行时 间、提高整体产能。然而,尽管多机器人系统在理论上潜力巨大,其实际部署却面临一个根本性的挑战:如何 在共享且充满障碍物的环境中,高效、安全地协调多个机器人完成多项任务? ▍多机器人协调的"三座大山" 多机器人协同需同时解决三个核心子问题,每个问题单独求解已属 "计算硬骨头",而三者的耦合关系更让传 统方法难以突破: 运动规划( Motion Planning ) : 需为每个机器人规划 "无碰撞路径",确保末端执行器精准抵达目标位 置。传统基于采样的算法(如 RRT )在低维度场景中表现尚可,但当机器人数量超过 4 个、障碍物复杂度 提升时,计算时间呈 "指数级增长" 。 任务调度( Scheduling ): 决定任务执行顺序,类似经典的 "旅行商问题( TSP )",属于 PSPACE 完 全问题(计算复杂度随任务量呈指数上升)。即使采用近似解法,也需预设大量规则,难以适配动态场景。 任务分 ...
X @s4mmy
s4mmy· 2025-09-15 15:49
Find this useful? Give it a like & share with friendsWant more? I produce a FREE weekly newsletter on Tuesdays; link in bioDisclaimer: I hold investments & have existing partnerships with some of the Agents/protocols mentioned abovehttps://t.co/MdbljS5vvus4mmy (@S4mmyEth):Meta just revealed a 25x faster method of training AI using Reinforcement Learning (RL)AI and Robotics will continue to gain traction as models evolveHere's the roundup for the DeAI/DePAI segment this week🧵(1/9) https://t.co/nICwXpLNNB ...