强化学习

Search documents
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 13:01
自今年二月起,DeepSeek 便因其开源旗舰级推理模型DeepSeek-R1 而引发全球瞩目——该模型性能 堪比全球前沿推理模型。其独特价值不仅体现在卓越的性能表现,更在于仅使用约2000块NVIDIA H800 GPU 就完成了训练(H800 是H100 的缩减版出口合规替代方案),这一成就堪称效率优化的 典范。 几天后,Elon Musk 旗下xAI 发布了迄今最先进的Grok-3 模型,其性能表现略优于DeepSeek-R1、 OpenAI 的GPT-o1 以及谷歌的Gemini 2。与DeepSeek-R1 不同,Grok-3 属于闭源模型,其训练动用 了惊人的约20万块H100 GPU,依托xAI "巨像"超级计算机完成,标志着计算规模实现了巨大飞跃。 xAI "巨像" 数据中心 Grok-3 展现了无妥协的规模扩张——约200,000块NVIDIA H100 显卡追求前沿性能提升。而 DeepSeek-R1 仅用少量计算资源就实现了相近的性能,这表明创新的架构设计和数据策展能够 与蛮力计算相抗衡。 效率正成为一种趋势性策略,而非限制条件。DeepSeek 的成功重新定义了AI扩展方式的讨 论。我 ...
2030年AGI到来?谷歌DeepMind写了份“人类自保指南”
虎嗅APP· 2025-04-07 23:59
以下文章来源于极客公园 ,作者芯芯 DeepMind认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果AI有问题,最坏的情况会是什么?我们现在能如何准备? 一、DeepMind的AI安全保险 极客公园 . 用极客视角,追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号 本文来自微信公众号: 极客公园 (ID:geekpark) ,作者:芯芯,编辑:靖宇,题图来自:AI生成 对于所谓的通用人工智能AGI,人们通常抱着"怕它不来,又怕它乱来"的矛盾心理。而这个困惑,对于正在AI军备竞赛中的硅谷巨头来说,就不仅仅 是一个"梗"能概括的了。 4月初,谷歌DeepMind发布了一份长达145页的报告文件,系统阐述了其对AGI安全的态度,DeepMind联合创始人Shane Legg的署名也在其中。 文件中最醒目的预测,是AGI的可能出现时间: 2030年 。 当然,Google也补充说,这具有不确定性。他们定义的AGI是"卓越级AGI (Exceptional AGI) "—— 即系统在非物理任务上达到或超越99%人类成年 人的能力,包括学习新技能等元认知任务 。 这份报告中反复出现的一个词是"严重伤害 ( ...
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
AI科技大本营· 2025-04-03 02:16
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 3 月的最后一天,由蚂蚁与清华大学交叉信息研究院吴翼老师团队联合推出的开源强化学习框架 AReaL 发布了里程碑版本——AReaL boba,正如其 昵称"boba"(珍珠奶茶)所寓意的那样,AReaL 团队希望他们的工作能像美味且平易近人的奶茶一样,普惠整个 AI 开发社区,让每一位开发者都能 轻松驾驭强大的推理模型。 就像 AReaL 介绍里说的那番,他们将 完全致力于开源,发布所有重现所需性能模型的训练细节、数据和基础设施。 AReaL boba 不仅把模型、代 码、数据及实现细节通通开放出来,而且还提供非常详细的教程, 真正实现了"人人可手搓顶尖大模型"的愿景。 集成 SGLang 框架,效率大幅提升! AReaL boba 是首个全面拥抱 xAI 公司高性能推理框架 SGLang 的开源训练系统。 通过引入 SGLang 并进行一系列工程优化,AReaL v0.2 在 7B 模型 上的训练速度相较于 v0.1 提升了 1.5 倍,端到端训练性能提升高达 73%。如下图所示: 官网提供的表格进一步展示了 AReaL-boba 在不同资 ...
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 07:40
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一个7B奖励模型搞定全学科, 大模型强化学习不止数学和代码 。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办? 腾讯&苏州大学团队提出新框架 RLVR ,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。 RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。 除论文外,还开源了奖励模型和多学科数据集。 7B奖励模型搞定全学科 研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。 这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。 像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。 于是研究团队进一步引入 基于模型的软奖励 (model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判 断的 ...
AI 写码一时爽,代码审查火葬场?GitHub Copilot 副总揭秘新瓶颈 | GTC 2025
AI科技大本营· 2025-03-31 06:55
我们距离 AI 在绝大多数软件开发任务中实现人类水平的能力和自主性大约还有 24 到 36 个月的时间。 责编 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 主持人: 大家好,我是 NVIDIA 开发者工具 AI 技术软件工程总监,马特·弗雷泽(Matt Frazier)。 众所周知,AI 辅助开发者工具,或者说代码生成、AI 代码生成——现在有很多叫法——正在从根本上改变我们开发软件的方式。NVIDIA 自然非常关 注这一趋势如何影响我们处理软件和加速计算的方法。 为此,在 GTC 2025(英伟达大会)上,我们邀请了来自多家公司和不同行业的 AI 代码生成通用应用专家,以及 CUDA 优化与相关研究领域的专家, 共同探讨这个话题。 我想快速问各位读者几个问题: 如果你对以上任何一个问题感同身受或感到好奇,那么接下来的讨论就值得你关注。下面,我想介绍一下参与本次讨论的嘉宾。 莎娜·达马尼(Sana Damani) ,她是 NVIDIA 架构研究组的研究科学家,致力于提升 GPU 上并行应用程序的性能,以及提高调试和优化工作的易用 性。 有多少人特别在 CUDA 调试中使用过 AI 驱动的代 ...
与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need
晚点LatePost· 2025-03-28 12:12
" 两 瓶 茅 台 的 价 格 体 验 未 来,太 划 算 了 。 " 嘉宾 丨 戴雨森 整理 丨 刘倩 程曼祺 本期播客,是《晚点聊》与真格基金管理合伙人戴雨森长聊 AI Agent 和 AI 趋势。 3 月 6 日,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。 在期中,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交 媒体。 当我们把一个任务交给 Manus,过了十几分钟收到完成的结果时 ,似乎真的感受到了一点 Attention is not all you need 的未来。 带来 Agent 等 AI 行业新变化的起点,是去年至今的两个重要节点:o1 和 R1。 戴雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。 O 系列解锁 Agent 应用,DeepSeek R 系列是开源的胜利、专注的胜利、本 o1 在大语言模型中引入强化学习,开启 Pretraining(预训练)Scaling Law 之外的 Pos ...
抛弃 OpenAI 后,Figure 机器人“进化”:像人一样行走!
AI科技大本营· 2025-03-28 03:41
"AI 的下半场是落地,而具身智能将是最佳载体"。 紧接着,Figure 又于近日宣布,其工业机器人 Figure 02 通过纯强化学习算 法,成功实现了如人类般自然流畅的行走。 强化学习驱动: 突破 Sim-to-Real 难题 责编 | 梦依丹 出品 | CSDN(ID:CSDNnews) Figure 自 2 月宣布与 OpenAI 结束合作转而拥抱完全自主研发路线后,动作频频。 先是于 2 月下旬正式发布其倾力打造的机器人操作系统 Helix ,该系统被视为 Figure 实现"真正自主"的关键基石。不仅如此,搭载该模型的 Figure 02 也已进驻物流工厂,承担起快递分拣的重任,显示了其初步的商业化潜力。 然而,仅仅在模拟环境中训练是不够的。如何将模拟环境中的学习成果成功迁移到真实的机器人身上,是一个巨大的挑战,被称为 "Sim-to-Real" 问 题。为了克服这一难题,Figure 团队采用了两种关键策略: 通过将域随机化与高频扭矩反馈控制相结合,Figure 成功地实现了零样本迁移(Zero-Shot Transfer),即无需额外的微调,在模拟环境中训练出的策 略可以直接应用于真实的 Fi ...
人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
量子位· 2025-03-26 10:29
白交 发自 凹非寺 量子位 | 公众号 QbitAI 注意看,机器人像人一样从容地走出大门了! 甚至,还有一整支机器人队伍迎面走来。 人形机器人独角兽Figure,再次带来他们的新成果—— 利用强化学习实现自然人形行走 。 跟之前版本的机器人相比,确实更像人了许多,而且步态更加轻盈,速度也更快。 根据官方介绍,主要分成三个部分: 强化学习 :强化学习利用模拟试验和错误,教Figure 02 人形机器人如何像人一样行走。 模拟训练 :通过高保真物理模拟器学习如何像人类一样行走,结果只需几个小时就能模拟出多年的数据。 Sim-to-Real :通过将仿真中的域随机化与机器人上的高频扭矩反馈相结合,模拟训练无需额外调整即可直接转换为真实硬件。 网友们纷纷表示被惊艳到,甚至觉得像是 太空行走 。 有一说一,自从与OpenAI取消合作后,这成果输出确实又快又多。 机器人像人一样自然行走 此次推出的,是经过强化学习训练的端到端神经网络。 具体来看。 首先,利用强化学习技术,在GPU加速物理仿真中对新的行走控制器进行了全面训练,并在几个小时内收集了数年的仿真演示数据。 在模拟器中,数以千计的Figure 02机器人被并行模 ...
喝点VC|红杉对话OpenAI Deep Research团队:AI Agent将成为今年最具突破性技术,强化学习重新回归主流
Z Potentials· 2025-03-10 03:07
图片来源 : Sequoia Capital Z Highlights Training Data 是一档聚焦 AI 研究与创新的播客节目,由红杉资本( Sequoia Capital )的 Sonya Huang 和 Lauren Reeder 主持。本期节目邀请 OpenAI 的 Isa Fulford 和 Josh Tobin ,探讨最新智能体 Deep Research 如何通过端到端强化学习突破传统 AI 研究方法,并压缩数小时的知识工作至数分钟,从而革新 商业与个人应用场景。 深度研究的起源与技术创新 Josh : 在 AI 领域,人们屡次从实践中汲取经验。例如,最初我们认为通过自行编写代码,可以构建出比模型更智能的系统。然而,随着该领域的发展,事 实证明,模型往往能够提出比人类更优的解决方案。机器学习的一个基本原则是: " 优化的目标决定最终的结果。 " 因此, 如果能够构建一个系统,使其 能够直接优化目标结果,那么其表现通常会优于人为组合多个未针对特定任务进行端到端优化的模型 。因此,我的长期指导思想是,类似于强化学习的策 略,即在模型的基础上进行调整,可能是构建最强大 AI Agent 的关 ...
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 12:17
2025 年 2 月的全球 AI 重要趋势。 文 丨 贺乾明 2025 年 2 月的 AI 月报,你会看到: 硅谷巨头的新共识:推理能力是大模型的一部分 OpenAI 和 Manus 的 Agent 开发经验 DeepSeek 推动中国大公司加大算力投入,阿里、字节两家加起来,今年就超过 2000 亿 3 家售价过亿的 AI 公司和 23 家获得超过 5000 万美元融资的 AI 公司 OpenAI 时薪 100 美元招专家生产数据提高模型能力 这一期月报中,我们开始邀请研究者、创业者和投资人提供一手视角的对每月 AI 趋势和标志性事件的评述和 洞察。 晚点 AI 月报,每月选取最值得你知道的 AI 信号。 以下是我们第 4 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。 技术丨GPT-5 雏形出现,行业新共识诞生 DeepSeek 带来的冲击波继续扩散,全球大模型公司陷入混战:不论是马斯克用超过 10 万张 GPU 训练 的 Grok 3,还是 OpenAI 可能投入 10 亿美元训练的 GPT-4.5,或是 Anthropic 融合推理(reasoning) 能力的最新模型 Claude 3 ...