Workflow
强化学习
icon
Search documents
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 00:49
余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴 趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著 名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。 然而,现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,依赖规则 验证器的方法难以拓展到通用领域上。 针对这一关键挑战,清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强 化学习(Reinforcement Learning with Reference Probability Reward, RLPR )。 这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质 量,相比基于似然度的基线方法取得了明显更佳的性 ...
神经因子挖掘(五):强化学习混频Multi-StepDQN择时策略
Changjiang Securities· 2025-06-26 11:41
金融工程丨深度报告 [Table_Title] 神经因子挖掘(五)—— 强化学习混频 Multi-Step DQN 择时策略 %% %% %% %% research.95579.com 1 丨证券研究报告丨 报告要点 [Table_Summary] 我们设计 DQN 的核心是学习在给定市场状态下最优交易动作的潜在价值。将 DQN 应用于中 证 1000 指数日频择时,模型信号(做多/做空/空仓)显示出有效预测能力。构建的策略显著超 越基准:多空策略年化收益高达 64.9%(经多步 DQN 优化后提升至 79.4%),空头策略风险控 制优异(最大回撤仅-14.33%,优化后夏普/卡玛比领先)。仓位变动连续合理,避免了高频无意 义切换。多步优化 DQN 进一步提升了信号质量和各策略表现(收益与风控指标均改善),证明 了其在量化择时领域的巨大潜力。 分析师及联系人 [Table_Author] 覃川桃 杨凯杰 SAC:S0490513030001 SFC:BUT353 请阅读最后评级说明和重要声明 2 / 23 2 [Table_Title 神经因子挖掘(五)—— 2] 强化学习混频 Multi-Step DQN ...
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 11:10
" 未来 5 到 10 年内,我们有 50% 的概率实现通用人工智能(AGI)。 " Google DeepMind CEO、 诺贝尔化学奖得主 Demis Hassabis 在本月初的一个采访中给出了惊人的预测。 AI 浪潮正以前所未有的速度加速进行中,在这条被追捧、被加速、甚至被神化 的 AGI 之路上,我们是否也踩过无数"看似正确却最终失败"的岔路? 早在 2019 年,"强化学习之父"Richard Sutton 发表了著名的《The Bitter Lesson》(苦涩的教训)一文,他指出:过去 70 年,AI 研究最大的弯路 就是我们太依赖人类已有的知识与直觉,而历史一再表明,真正能带来突破的,反而是那些"摒弃人类经验、依靠计算规模"的方法。 在 Sutton 看来,算力与数据才是推动 AI 向前的根本引擎,而不是人类引以为傲的"智慧"本身。 这句话听起来也许刺耳,却道出了一个时代的真相——在这场智能革命中,许多我们曾深信不疑的"路径"与"经验",正在变成新纪元的障碍。 这也正是我们本期《万有引力》直播对话的主题——「 通往 AGI 之路的苦涩教训」 。 6 月 27 日 12:00-14:00,C ...
哈啰进军无人驾驶赛道!背靠蚂蚁+宁王,能否复刻两轮神话?
Nan Fang Du Shi Bao· 2025-06-25 15:19
在互联网造车热潮渐退的当下,Robotaxi赛道传出了重磅消息:近日,曾以共享单车普惠出行闻名业内的哈啰出行,与蚂蚁集团、宁德时代 三方强强联手,通过旗下投资主体共同组建"上海造父智能科技有限公司"(以下简称"造父智能")正式在沪落地,公司注册资金高达12.88 亿元,将专攻L4级自动驾驶技术研发与商业化落地。 从相关网站上的公开信息可看到,上海造父智能科技有限公司由上海云玚企业管理咨询有限公司(代表蚂蚁集团)、上海钧哈网络科技有 限公司(代表哈啰)以及宁波梅山保税港区问鼎投资有限公司(代表宁德时代)共同持股,三方首期合计出资超过 30 亿元。 三方合作的优势互补 从造父智能的三位股东定位上看,此次合作展现出了不错的优势互补性。 目前,哈啰 Robotaxi 业务及研发团队已广纳 AI 大模型、自动驾驶等领域的专业技术人才,初步完成核心人才矩阵的搭建,未来还计划进一 步吸引全球优秀人才的加入。 蚂蚁集团除了提供雄厚资金支持外,其强大的金融支付平台能力和数据资产,能为未来无人车的支付闭环、保险设计及用户信用体系搭建 提供技术支撑。 此外,蚂蚁集团近年来持续在 AI 基础技术研究方面布局,尤其在大模型、强化学习、 ...
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 06:50
当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍 面临挑战。 针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。 该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略 。 GoT 和 GoT-R1 已全面开源。 GoT 框架首先通过引入显式的语言推理过程,在生成图像前对语义内容和空间布局进行规划,从而提升了生成图像的准确性和可控性 。然而,GoT 的推理能力主 要源于基于人工定义模板的监督微调数据,这在一定程度上限制了模型自主发现更优推理策略的潜力,有时可能导致生成的推理链条未能完全忠实于用户复杂的 文本提示 。 GoT-R1 的提出,旨在克服上述局限。它将强化学习(RL)创新性地应用于视觉生成的语义 - 空间推理过程,赋予模型自主学习和优化推理路径的能力。 强化学习训练前 ...
机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
机器之心· 2025-06-25 06:50
机器之心报道 机器之心编辑部 恭喜获奖者。 RSS(Robotics: Science and Systems,机器人科学与系统会议)是机器人领域顶级学术会议,自 2005 年起每年举办一次,该会议旨在促进机器人领域的科学研究和 技术应用的发展。 地址:https://roboticsconference.org/program/awards/ 杰出 Demo 论文奖 论文标题:Demonstrating MuJoCo Playground 论文摘要: 该研究提出了 MuJoCo Playground—— 这是一个基于 MJX 构建的完全开源机器人学习框架,其核心设计目标是大幅简化仿真环境搭建、模型训练以及 仿真到现实场景的迁移全流程。研究人员仅需执行简单的「pip install playground」安装命令,即可在单 GPU 硬件上完成分钟级策略训练。 该框架支持四足机器人、人形机器人、灵巧手及机械臂等多类型机器人平台,能够直接基于状态观测或像素级输入实现零样本仿真到现实迁移。 今年大会已于 6 月 21 日至 25 日在美国洛杉矶举行。杰出 Demo 论文奖、杰出系统论文奖、杰出学生论文奖、杰出论文奖 ...
ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
机器之心· 2025-06-24 14:07
本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受 Jiaxuan You 教授 指导。其主要研究方向为:大语言模型的安全性及其在复杂场景中的推理。 说服,是影响他人信念、态度甚至行为的过程,广泛存在于人类社会之中。作为一种常见而复杂的交流形式,这一颇具挑战的任务也自然地成为了日趋强大 的大语言模型的试金石。 人们发现,顶尖大模型能生成条理清晰的说服语段,甚至在 Reddit 等用户平台以假乱真,但大模型在心智感知方面的缺失却成为了进一步发展说服力的瓶 颈。 成功的说服不仅需要清晰有力的论据,更需要精准地洞察对方的立场和思维过程。这种洞察被心理学称为「心智理论」(ToM),即认识到他人拥有独立的 想法、信念和动机,并基于此进行推理。这是人类与生俱来的认知能力,而大模型在对话中却往往缺乏心智感知,这导致了两个显著的缺陷: 为解决这一问题,伊利诺伊大学香槟分校的研究者提出了 ToMAP(Theory of Mind Augmented Persuader),一种引入「心智理论」机制的全新说服模 型,让 AI 更能「设身处地」从对方的角度思考, ...
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
量子位· 2025-06-24 13:36
不圆 发自 凹非寺 量子位 | 公众号 QbitAI Thinking模式当道,教师模型也该学会" 启发式 "教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司 Sakana AI ,带着他们的新方法来了! 这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。 用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。 | Teacher | Student | | | Final model AIME 2024 MATH 500 GPQA Diamond Overall | | | | --- | --- | --- | --- | --- | --- | --- | | N.A. | | Owen-7B | 10.00 | 74.20 | 33.30 | 39.17 | | DeepSeek-R1 (671B) Qwen-7B | | Bespoke-7B | 20.00 | 82.00 | 37.80 | 46.60 | | RLT teacher (7B) | | ...
0产品估值100亿美元!前OpenAI CTO的“明星创业项目”:要做“企业定制AI模型”
Hua Er Jie Jian Wen· 2025-06-24 08:39
OpenAI前首席技术官Mira Murati创立的AI初创企业Thinking Machines Lab(TML)正以惊人的速度崭露 头角,其目标直指通过定制化AI模型助力企业实现收入增长。 据媒体报道,这家成立不到五个月的公司已完成20亿美元融资,估值达到100亿美元。 强化学习驱动的定制化AI策略 TML的商业模式聚焦于通过强化学习技术开发定制化AI模型。 据与Murati交流的人士透露,该公司将AI模型与企业追踪的具体KPI挂钩,旨在帮助客户直接提升营收 或利润。这种针对性策略被投资者称为"RL for businesses",意在为企业提供更精准的解决方案。 前OpenAI CTO新创企业估值百亿美元,计划开发定制化AI助企业增收。 据知情人士向媒体透露,Meta首席执行官扎克伯格近几个月来曾与Murati讨论投资或收购可能性,但 谈判并未取得实质进展。 此外,谷歌云正为TML提供英伟达驱动的服务器租赁服务,这可能促使谷歌进一步投资,以期TML未 来增加服务器租赁支出。 这种定制化方法可能让TML在特定行业领域具备竞争优势,如客户支持、投资银行或零售等,以满足 细分市场需求,客户或将为此支付溢价。 ...
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 06:46
第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。 Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。 第二作者马崟淞是约翰斯・霍普金斯大学博士生。 图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。 第三作者兰石懿是英伟达 Research Scientist。 最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。 此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰 斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型 的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个 ...