强化学习

Search documents
高新技术助力新能源发电系统高质量运行
Xin Hua Ri Bao· 2025-06-04 20:56
□ 姚磊 电气自动化技术融合电子技术、计算机技术、控制技术等多学科知识,具有智能化、高效化、网络化和 环保化等特点,能够实现对电气系统的自动控制和调节。在现代技术条件下,加强电气自动化技术融 合,对促进新能源发电系统高质量运行具有重要的意义。 优化储能系统,提升其稳定性和可靠性 智能电网是建立在集成、高速双向通信网络基础之上,融合先进的传感和测量技术、设备技术、控制方 法以及决策支持系统技术的现代化电网。基于电气自动化技术的配电自动化系统能够利用智能电表、分 布式传感器等设备,实时采集配电网功率因数、设备状态等运行数据,通过通信网络将数据传输到配电 主站,运用先进的分析算法和控制策略对配电网运行状态进行评估和预测,实现配电网的智能化运行和 管理。变电站自动化系统采用先进的控制算法和智能控制策略,让运维人员可以通过监控中心的计算机 终端,远程操作和控制变电站内的断路器、隔离开关等设备,提高操作的准确性和效率,减少人为因素 带来的安全风险。 能源管理系统(EMS)是电网运行的核心控制系统,电力公司借助电气自动化技术对EMS进行深度优化, 能够显著提升其对新能源发电和电网负荷的精准管理能力。在数据采集与处理方面,引 ...
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心· 2025-06-04 04:41
机器之心发布 机器之心编辑部 想训练属于自己的高性能推理模型,却被同步强化学习(RL)框架的低效率和高门槛劝退?AReaL 全面升级,更快,更强,更好用! 来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL- boba² (AR eaL v0.3) 。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 " 全面开源、极速训练、深度可定制 " 的开发理 念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL: 异步强化学习(Asynchronous RL)是一种重要的 RL 范式,它将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练,极大提高了资源使用率,天然 适用于多轮次交互的 Agent 场景。 AReaL-boba² 通过 强化学习算法和训练系统的共同设计(co-design) ,在完全不影响模型效果的同时,实现了稳定高效的异步 RL 训练,不断朝全面支持 Agen ...
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 04:41
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理 技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。然而,来自英伟达的这项研究指出,造成这 一现象的根本原因在于:数学、编程等任务在 base model 的训练数据中被过度呈现,以及 RL 训练步数不足。 论文题目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 链接:https://arxiv.org/pdf/2505.24864 ProRL 来了!长期训练 = 推理能力质变! 由 NVIDIA 团队提出的 ProRL(Prolonged Reinforcement Learning)框架,将 RL 训练步数从传统的几百步大幅提升至 2000 步以上,释放了小模型潜 藏的巨大潜力。结果令人震惊: KL 正则化 + 周期性策略重置 这一突 ...
零一之间——Agent眼中的市场
2025-06-04 01:50
零一之间——Agent 眼中的市场 20250603 摘要 强化学习模型通过评估当前购买行为及未来卖出时机优化转债收益,样 本外数据显示,2020 年后多数时间建议为 0,仅少数时段建议购买,表 明市场多数时候不建议购买,需更高激励促使模型改变决策。 市场观点鲜明时可强调具体投资建议,市场模糊时应关注结构性机会, 寻找特定领域或行业投资机会,而非依赖整体市场趋势。 模型通过引入更多因子或采用退火算法等随机探索策略,并使用缓存池 记录训练数据,以避免局部最优化问题,提升模型泛化能力。 转债个券应用中,模型可降低最大回撤约 9.4%,提高年化回报 2%,但 不适用于电力、银行等超级大盘转债,因其规律与其他转债不同,且数 据量大,日常办公设备难以满足要求。 历史数据显示,模型能有效规避趋势性风险,如成功避开 2024 年 1 月 和 2025 年 3 月期间的市场下跌,并在趋势上升时重新进入,但对小盘 流动性问题等特殊情况难以分辨。 仓位管理可根据市场状态动态调整,长期来看,平均仓位为 46%,适合 与二级债基或半仓转债结合使用,极端情况下可完全退出市场规避风险, 近期保持中性观点灵活调整。 当前适合购买长期上涨且 ...
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 00:17
General-Reasoner团队 投稿 量子位 | 公众号 QbitAI 一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架: General- Reasoner 。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。 上图显示出General-Reasoner在多项跨领域评测中显著提升基础模型推理能力。 当前,强化学习(RL)被视为提升模型推理能力的关键手段。其中,Zero-RL方法通过直接训练基础 模型,已在数学和编程等结构化任务上展现出强大效果。 问题是,这些方法往往局限于数据丰富、答案结构清晰的领域,在面对物理、金融或人文社科等更广 泛的领域时,模型难以有效泛化。 接下来看看研究团队是如何解决这些推理难题的? 相较现有方法的关键革新 目前的Zero-RL框架如SimpleRL通常聚焦于单一领域数据,采用简单的规则式答案验证,存在以下不 足: 数据单一 多为数学竞赛或代码任务,泛化能力有限; 验证方式僵化 仅能识别明确结构化答案,无法灵活处理多样化的答 ...
AGI的不归之途
虎嗅APP· 2025-06-03 13:52
以下文章来源于未尽研究 ,作者未尽研究 未尽研究 . AI,新能源,合成生物,地缘X 本文来自微信公众号: 未尽研究 (ID:Weijin_Research) ,作者:未尽研究,题图来自:AI生成 转眼之间,2025年即将过半。上半年OpenAI o3、Gemini 2.5 pro、Grok 3 mini和Claude 4的推出, 以及智能体MCP、A2A等协议的推出和融合,让前沿大模型、智能体、应用的进展再次提速。 上半年中国确立了在开源领域的优势。通义千问在2024年9月即已经开始超越Llama 3,DeepSeek R1从2025年初即开始赶上o1。Llama 4推出后,并没有改变开始形成的DeepSeek与通义千问之间在 性能上互卷的格局。 互联网女皇米克尔 (Mary Meeker) 发出了第一份AI趋势报告。她从PC、互联网、移动、云计算来 看AI,认为 所有后来的技术,都是之前技术的"复利",AI也不例外 。所以,押注"乐观"往往是最值 得的投资之一。 目前全球仍有26亿人没有接入互联网,米克尔看好更低成本的卫星互联网,加上直接带有AI功能的 网络体验。"想象一下,一个'首次上网体验'不再是输入 ...
深度强化学习赋能城市消防优化,中科院团队提出DRL新方法破解设施配置难题
3 6 Ke· 2025-06-03 07:27
近日,中国科学院空天信息创新研究院的梁浩健博士在中国地理学会地理模型与地理信息分析专业委员会 2025 年学术年会上,以「基于分层深度强化学 习的城市应急消防设施配置优化方法研究」为题做了演讲报告。以城市消防设施布局优化为切入点,系统回顾了地理空间优化领域的经典优化方法,并详 细介绍了基于深度强化学习(DRL)优化方法的优势和潜力。本文为梁浩健博士的分享精华实录。 HyperAI超神经在不违原意的前提下,对梁浩健老师的深度分享进行了整理汇总,以下为演讲实录。 地理空间优化:数学与地理的深度融合 地理空间优化是数学组合优化与地理信息科学的结合,致力于解决空间布局、资源配置等实际问题 ,在城市建设、工业园区选址、公共服务设施选址等 众多领域都具有重要的研究意义。它可以被表示为一个最优化问题,涉及决策变量、约束条件和目标函数,其中决策变量通常为整数或 0 - 1 变量。如下 图所示。 在城市建设与发展中,地理空间优化至关重要。从工业园区选址,到公共服务设施布局,它都发挥着关键作用。但传统求解方法存在诸多局限,如今,深 度学习技术为其带来了新的转机。 近日,在中国地理学会地理模型与地理信息分析专业委员会 2025 年 ...
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 03:40
Ubiquant团队 投稿 量子位 | 公众号 QbitAI 无需标注数据、无需繁琐奖励设计,只用10步就能见效—— 「熵最小化」或许比强化学习更适合大语言模型快速升级 。 强化学习(RL)近年来在大语言模型(LLM)的微调中大获成功,但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期,成为制约RL 进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅用一条无标签数据, 训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。 一、从RL到EM:LLM微调的困境与新思路 当前,大语言模型(LLM)在经过海量数据预训练后,展现出了惊人的通用能力。然而,要让模型在特定、复杂的推理任务(例如数学、物理 或编程)上达到顶尖水平,后训练(post-training)主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。 尽管基于RL的微调在提升模型性能上取得了显著进展,但其过程却面临着一系列明显的弊端,使得这种方法成本巨大且过程繁琐。 相较之下,熵最小化(EM)提出了 ...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 03:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
见证历史!DeepSeek 跃居全球第二 AI 实验室,R1 登顶开源王座,R2 全网催更
程序员的那些事· 2025-06-01 02:04
转自:新智元 【导读】 5 月 29 日晚,终于等到了DeepSeek-R1-0528官宣。升级后的模型性能直逼o3和Ge mini 2.5 Pro。如今,DeepSeek真正坐实了全球开源王者的称号,并成为了第二大AI实验室。 29 日 晚,DeepSeek正式官宣R1已完成小版本升级,开启「深度思考」功能即可体验。 在多项基准测试中,DeepSeek-R1-0528的数学、编程、通用逻辑性能,足以媲美最强o3和 Gemini 2.5 Pro。 而且,它还成为国内首屈一指的开源模型,全面超越Qwen3-235B。 除了性能刷新SOTA,此次R1的更新,还体现在了其他三方面: 不 仅 如 此 , DeepSeek 官 方 基 于 Qwen3-8B Base 微 调 了 更 强 版 本 ——DeepSeek-R1-0528- Qwen3-8B。 这 款 8B 模 型 在 AIME 2024 上 , 性 能 仅 次 于 DeepSeek-R1-0528 , 甚 至 可 与 Qwen3-235B- thinking一较高下。 前端代码生成能力增强 幻觉率降低45%-50% 支持JSON输出和函数调用 如今,Deep ...