强化学习

Search documents
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 03:50
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5将会集大成于一体?! 就在发布"最强编程智能体Codex"之后 ,OpenAI又接着在Reddit举行了 "有问必答"活动 。 公司研究副总裁Jerry Tworek,剧透了下一代基础模型GPT-5的最新消息: 为了减少模型切换,未来计划将Codex、Operator、Deep Research和Memory整合在一起 。 Q3 : 团队在使用Codex时,发现了哪些与目前的"氛围编码(vibe coding)"不同的范式转变?开发这个工具的灵感是什么? 除此之外,其他Codex团队成员也纷纷开启了爆料模式,比如: Okk,下面我们一起吃瓜。 回应10大重点问题 Codex最初只是一个附带项目,启动原因是他们意识到在内部工作流中未充分利用好模型; 内部在使用Codex时,编程效率提升了约3倍; OpenAI正在探索灵活的定价方案,包括按需付费; o3-pro或codex-1-pro最终将在团队能力允许的情况下推出; …… 整体而言,OpenAI团队这次主要分享了Codex的详细情况,以及公司未来的发展计划。 为了尽量贴合问答者原意,我们直接以对话 ...
OpenAI首席科学家帕乔茨基:AI已开始具备原创性研究能力
3 6 Ke· 2025-05-16 10:14
OpenAI首席科学家雅库布・帕乔茨基于近日接受了《自然》杂志的专访。帕乔茨基在访谈中表示,目 前强化学习正在推动AI模型逼近"推理"边界,AGI正从理论走向现实,而开源与安全之间的张力是当前 AI发展的一大挑战。 雅库布・帕乔茨基:现在我们能与模型对话,但它仍然需要持续指导。我认为未来的重大变化之一,就 是这一点(指AI作为助手角色)将被根本性地改善。 我们已经看到类似OpenAI 的 "Deep Research"等 工具(可整合大量信息)在无人监督的情况下,能运行 10到20分钟并产出有价值的内容,而完成这些任务所需的计算资源其实很少。 帕乔茨基预计,未来AI将能够独立完成真正具有原创性的科学研究任务,推动软件工程、硬件设计等 多个学科的发展。 那么,如果我们面临开放性研究问题,花更多算力是值得的。 以下为访谈内容摘要: 我相信未来我们将拥有真正具备原创研究能力的AI。我们将在诸如自动软件工程、硬件组件自主设计 等领域取得巨大进展,并扩展到其他学科的类似应用中。 问:目前,科学家们越来越多地使用推理模型。你认为这些模型在五年后会扮演怎样的角色? 问:在构建OpenAI的推理模型方面,强化学习发挥了多大作 ...
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 04:39
随着大模型(LLMs)的快速发展和可集成工具的爆炸增长,AI 智能助手在日常生活中可提供的便利越来越多,不仅包括传统任务型对话中订机票、查询天气等助 理能力,还增加了无以计数的 AI 能力,如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意图(Intent Detection)并路由至下游工具链是实现 这些功能的第一步,其重要性不言而喻。 然而,工具的快速迭代、多样化、工具之间关系的复杂化也给意图识别带来新的挑战,即模型在应对新意图时普遍存在性能衰减问题。如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型,使得模型能够更准确理解未见场景的意图至关重要。 近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结 合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,显著提升模型在未知意图上的泛化能力,攻克了 工具爆炸引发的意图泛化难题,推动大模型在意图 ...
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
Shenwan Hongyuan Securities· 2025-05-15 15:20
行 业 及 产 业 机械设备 2025 年 05 月 15 日 控制器提供具身智能基座,数据飞 行 业 研 究 / 行 业 深 度 证券分析师 王珂 A0230521120002 wangke@swsresearch.com 戴文杰 A0230522100006 daiwj@swsresearch.com 刘洋 A0230513050006 liuyang2@swsresearch.com 胡书捷 A0230524070007 husj@swsresearch.com 联系人 胡书捷 (8621)23297818× husj@swsresearch.com 本期投资提示: 本研究报告仅通过邮件提供给 中庚基金 使用。1 请务必仔细阅读正文之后的各项信息披露与声明 证 券 研 究 报 告 轮驱动模型迭代 看好 ——机器人系列报告之二十七 ⚫ 目前人形机器人的硬件成熟度高于软件,而软件是人形机器人走向商业化的关键,但研 究相对空白。本文主要分析:1)算法:机器人的主要算法,包括运控算法和大模型 等;2)数据:主要来源和采集方式,目前所处阶段;3)控制系统:机器人"大脑"的 软硬件构成,如何为具身智能提供底层支撑。 ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 08:09
本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。 R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。 现在,我们推出名为 DanceGRPO 的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美 学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。 论文标题: DanceGRPO: Unleashing GRPO on Visual Generation arXiv 链接:https://arxiv.org/pdf/2505.07818 动机 在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的 ...
自研算法是否将成为主机厂的必选项?——第三方算法厂商的“护城河”探讨
2025-05-13 15:19
• IP 授权费用包括一次性支付的授权费和年度维护费,以及根据芯片销量收 取的版税。例如,一个 BPU IP 授权费大约为 3,000 万元,同时每年需支 付约 10%的维护费,即 200 万元,以及按 5%的比例提成。 • 工信部新规对头部智能驾驶企业影响不大,但可能拉开二梯队之间的差距, 比拼谁的车更多、谁能投入更多成本进行内部测试和迭代发版,从而影响 市场竞争格局和投资决策。 Q&A 主机厂自研算法的主要难点和壁垒是什么? 主机厂在自研算法方面面临的主要难点和壁垒包括技术能力、开发周期、投入 成本以及数据闭环能力。首先,技术能力方面,传统主机厂在端到端研发过程 中,对于算法的理解和开发能力显著弱于新势力及头部第三方企业。这与内部 领军人物的水平差异有关。此外,传统主机厂更多的是集成或购买算法进行适 配,而非从零开始自主研发。其次,开发周期方面,新势力及头部第三方企业 通常能够在一到两周内迭代一个版本,而传统主机厂迭代速度较慢。再次,资 金投入方面,自研自动驾驶算法非常烧钱,例如头部企业人均薪酬超过 50 万 元,以及算力储备和租赁每年投入达数亿元。最后,在数据闭环能力上,由于 智能化渗透率低,传统车企的 ...
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 07:08
本文由香港中文大学与快手可灵等团队联合完成。第一作者为香港中文大学 MMLab 博士生刘杰,他的研究方向为强化学习和生成模型,曾获 ACL Outstanding Paper Award。 流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan) 领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。与此同时,在 线强化学习因其高效探索与反馈机制,在语言模型领域取得显著进展,但在图像生成中的应用仍处于初步阶段。 为此,港中文 MMLab、快手可灵、清华大学等团队联合提出 Flow-GRPO,首个将在线强化学习引入 Flow Matching 模型的工作 。在 Flow-GRPO 加 持下,SD3.5 Medium 在 GenEval 基准测试中的准确率 从 63% 提升到 95%,组合式生图能力超越 GPT4o ,这说明 流匹配模型还有很大提升空间 , Flow-GRPO 的成功实践,为未来利用 RL 进一步解锁和增强各类流匹配生 ...
最先进的AI大模型,为什么都在挑战《宝可梦》?
Hu Xiu· 2025-05-12 06:57
Core Insights - The article discusses the evolution of AI models using games as a testing ground, highlighting the recent achievement of Google's AI model Gemini 2.5 Pro in independently completing the original Pokémon game, which has reignited interest in AI capabilities [4][30]. Group 1: AI Development and Gaming - AI has been tested through games for nearly a decade, with notable milestones including AlphaGo's victory over human players in Go and DeepMind's success in games like DOTA2 and StarCraft II [2][3]. - The use of games as a benchmark for AI intelligence remains prevalent, as demonstrated by Gemini's recent accomplishment, which was celebrated by Google's CEO and DeepMind's head [4][5]. Group 2: Challenges in AI Learning - The Moravec's paradox suggests that tasks perceived as easy for humans can be significantly more challenging for AI, which is exemplified by Gemini's achievement in Pokémon [6][7]. - The process of AI learning in games like Pokémon is complex, requiring the AI to develop its own understanding and strategies without predefined rules or guidance [16][17]. Group 3: Comparison of AI Models - Anthropic's Claude 3.7 struggled to progress in Pokémon, achieving only three badges after a year of iterations, while Gemini completed the game with approximately 106,000 actions, significantly fewer than Claude's 215,000 actions [11][30]. - The differences in performance between Claude and Gemini are attributed to their respective frameworks, with Gemini's agent harness providing better input processing and decision-making capabilities [34][35]. Group 4: Implications for AI Research - The ability of AI to navigate and complete games like Pokémon indicates its potential for independent learning and problem-solving in real-world scenarios [37][38]. - The choice of Pokémon as a training ground reflects the game's themes of growth, choice, and adventure, paralleling the journey of AI in understanding complex rules and environments [39][40].
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 04:31
机器之心发布 机器之心编辑部 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战, 尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚 至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工 作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场 ...
人形机器人到底是产业革命还是资本泡沫?
机器人大讲堂· 2025-05-11 04:26
近年来,作为科技创新的重要代表之一,人形机器人不断成为科技头条的焦点,吸引了大量资本的投入。 从投资机构到初创公司,纷纷涌入这一赛道,在过去的一年当中,一些成立甚至不足一年的企业估值迅速 突破数十亿。然而,尽管受到资本市场热捧,以具身智能为代表的人形机器人的商业化进展与规模化落地 却表现得并不理想,金沙江创业投资基金朱啸虎的犀利言论,更是为这个产业敲响了警钟。 ▍ 资本的热捧助推人形机器人产业出现资本泡沫 以智能护理机器人为例,该机器人虽然被设计用于为老年人提供帮助,但在实际应用中却表现得差强人 意。动作缓慢,泛化能力差,容错率低,都成为用户吐槽的诟病。如抓取咖啡杯,都需要经过反复的"彩 排",在实际执行当中,还不一定能够一次成功。这种技术上的滞后,使得这些机器人的市场落地远未达到 预期效果。而那些所谓炫技的跳舞,空翻动作,只不过是遥操作和模型训练控制,依旧需要人类在后台遥 控,这并非我们理解的具身智能世界的范畴。 人形机器人领域的现象揭示了一个普遍的行业问题,即资本市场对新兴技术的盲目追捧以及对技术成熟度 的忽视。在某些情况下,资本的大量流入未必能够有效促进技术的实际进步,反而可能导致市场泡沫的产 生。例如 ...