强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

小熊跑的快· 2025-07-07 09:45

4.7 日后，中美两国股市都迎来了一轮上涨：纳斯达克累计涨幅 32.9% 。恒生科技指数 ETF （ 513180 ）累计涨幅 11.57% 。上证涨了 12.16% 。 A 股整体的上涨幅度没有美股大，从结构上看，也有很大的差别。逻辑是对的：训练芯片以 H100 和 H200 为首，从 2.28 日以后其主力云上价格是往下得：分析里面的原因：还是基础大模型的迭代变慢所致，在 transformer 架构下的基础模型迭代明显变慢了，去年 11 月我们还能说是因为算力不够的原因，大模型迭代受阻。但是从今年 3 月 B200 开始交付， 5 月以后情景看，基础模型的升级就是变慢了。而且从我们跟踪的行业趋势看，预训练美国大厂们还没放弃，但是基本都把大模型迭代的重点全力投向了 RL 强化学习路径，马上要出来的 GPT5 也是这方面的集大成者。 RL 后训练强化学习阶段，老黄也认为遵循 scaling law 法则，但比起预训练的暴力增参的大幅需求， RL 的需求显然要小一些。所以从 2 月全球一窝蜂的转向强化学习这个路径后， H100 和 H200 的租赁价格是明确下降的，这里面也有地区影响，比如 ...

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位· 2025-07-07 06:13

henry 发自凹非寺量子位 | 公众号 QbitAI 学好数理化，走遍天下都不怕！这一点这在大语言模型身上也不例外。大家普遍认同：具备更强数学能力的模型往往也更智能。但，常识就是用来打破的。最近，来自CMU的团队发现，一些数学好的模型并没有将它们的"天赋"带到其他更加通用的领域。研究发现，只有用强化学习（RL）训练的模型才能将数学推理技能广泛迁移到其他任务上。而用监督微调（SFT）训练的模型则表现出有限的迁移甚至没有迁移。网友直呼：又一个苦涩的教训（bitter lesson）。这数学题，不做也罢？很明显，人们训练大模型并不只是让它来做数学题的。研究者之所以热衷于提高模型的数学表现，是因为希望它能够把数学那里学到的严密逻辑应用到其他更广泛的领域。但在此之前，我们有必要知道，对于一个大模型，专门优化数学推理（math reasoning），它在其他任务（推理任务、非推理任务）上会变得更好，还是更差？换句话说：做数学推理训练，会不会帮助或者损害模型在其他领域的能力？为了解决这一疑问，研究评估了20多个模型在数学推理、其他推理任务（包含医学推理、医学推理、智能体规划）和非推 ...

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

TI）

Artificial Intelligence

大模型

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

TI）

Artificial Intelligence

大模型

6大基准全面碾压！TW-GRPO刷新视频推理天花板，CLEVRER准确率突破50.4%！

机器人大讲堂· 2025-07-06 05:23

随着多模态大语言模型（ MLLMs）的快速发展，其在视频推理等前沿任务中快速进化，不断突破性能天花板。而强化学习（ RL）作为推动这场技术革命的关键引擎，为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化，让模型推理能力实现质的飞跃；VideoR1引入T-GRPO，赋予模型拆解视频时空逻辑的 "透视眼"；VideoChat-R1借助基于 GRPO 的多任务联合微调，让模型在视频理解与多步推理上表现得更加 "聪明伶俐"，相关成果不断涌现…… 尽管基 RL驱动的优化在指标提升上成绩亮眼，但在面对复杂多模态任务时，依然存在两大拦路虎：一方面，思维链推理应用到多模态时 "水土不服"，不仅产出的推理过程冗长没重点，训练目标还常忽略关键时空线索，拖慢学习效率；另一方面，现有依赖单选题问答的稀疏二元奖励信号太" 简单粗暴 "，只认可全对答案，埋没部分正确内容。不过幸运的是，视频定位研究已证实，软奖励信号能稳定学习过程、提升精度。 ▍提出TW-GRPO框架：革新加权机制与奖励设计面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战，来自中山大学、兰州大学、合 ...

具身智能之心· 2025-07-04 12:07

点击下方卡片，关注" 具身智能之心 "公众号作者丨 GianlucaMonaci 编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。研究背景与核心问题图像目标导航（Image goal navigation）需要两种关键能力：一是核心导航技能，包括检测自由空间、障碍物及基于内部表征做决策；二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图像匹配，要么预训练计算机视觉模块进行相对位姿估计。研究聚焦于一个关键问题：该任务能否如近期研究所说，通过强化学习（RL）对完整智能体进行端到端训练来高效解决？若答案为肯定，其影响将超出具身AI领域，有望仅通过导航奖励来训练相对位姿估计模型。核心研究内容与方法关键架构选择研究探讨了多种架构设计对任务性能的影响，核心在于如何支持图像间的隐式对应计算，这对提取方向信息至关重要。主要架构包括（figure 2）：实验设计 Late Fusion ：分别编码观察图像和目标图像 ...

交叉注意力（Cross-attention）

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

港大强化学习驱动连续环境具身导航方法：VLN-R1

具身智能之心· 2025-07-04 09:48

作者丨视觉语言导航编辑丨视觉语言导航点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。主要贡献研究背景作者：Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位：香港大学，上海AI实验室论文标题：VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接：https://arxiv.org/abs/2506.17221 项目主页：https://vlnr1.github.io/ 代码链接：https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架：利用大型视觉语言模型（LVLM）处理第一视角视频流，从而实现连续环境中的视觉语言导航。与以往基于离散导航图的方法不同，VLN-R1能够生成连续的 ...

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-03 13:36

职位描述我们正在寻找一位杰出的研究员/科学家，加入我们的前沿探索团队，共同定义和构建下一代自动驾驶与机器人的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究，该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力。核心职责包括前沿算法研究与构建：负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架，更将探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。核心模型能力攻关：主导模型在以下关键能力上的突破：多模态场景理解：融合视觉、语言、雷达等多源信息，实现对动态、开放环境的深刻理解和空间感知。学习与适应机制：深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法，使模型能从海量数据和与环境的交互中持续学习和进化。技术愿景与路线图：主导构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支撑，并探索其在自动驾驶和通用机器人领域的统一应用潜力。复杂语义推理与决策：让模型能够理解模糊、抽象的人类指令，并结合对 ...

你被哪个后来知道很致命的BUG困扰过一周以上吗？

自动驾驶之心· 2025-07-03 12:41

作者 | hzwer 黄哲威编辑 | 自动驾驶之心原文链接： https://www.zhihu.com/question/535225379/answer/1919097852895958495 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文来点强化学习笑话鼓励一个走迷宫 AI 尽量去那些没见过的场景，结果 AI 找到了一个迷宫里的电视，不用动就能不断地见到新东西《智能体只想看电视》模型训练很慢，随便写点 bug 很多天以后才会观察到迹象我入门强化学习做的项目 NIPS2017-LearningToRunACE，是在虚拟环境训练一个机器人跑步，要在规定时间跑得最远，模型输入就是各个机器人关节的速度位置，障碍物的位置等等，然后输出肌肉的舒张收缩控制量当年强化学习搭好框架以后，基本上就是要设计奖励或者说学习目标先写个速度最快的学习目标 -> 学了两天一看，模型学会了跳远然后摔倒，因为蹦出去那一下挺快的摔倒惩罚搞高点 -> 模型学会扎马步换个惩 ...

NIPS2017-LearningToRunACE

NIPS2017-LearningToRunACE

LearningToPaint

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

机器之心· 2025-07-03 03:26

本文第一作者为上海交通大学计算机科学四年级博士生万梓煜，主要研究方向为强化学习、基础模型的复杂推理，通讯作者为上海交通大学人工智能学院温颖副教授和上海人工智能实验室胡舒悦老师。团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授，伦敦大学学院的宋研、杨林易和汪军教授，上海交通大学的温潇雨，王翰竟和张伟楠教授。引言最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeekR1）。然而，大模型何时产生 "顿悟（AhaMoment）" 的机理仍未明晰。近期多项研究提出推理模式（reasoning pattern）对于推理能力的重要作用。类似的，本研究认为大模型复杂推理的能力强弱本质在于元思维能力的强弱。所谓 "元思维" （meta-thinking），即监控、评估和控制自身的推理过程，以实现更具适应性和有效性的问题解决，是智 ...

多智能体强化学习

大模型元思考

元思维

Artificial Intelligence

Artificial Intelligence

ReMA框架

Llama3

大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知

3 6 Ke· 2025-07-03 02:53

Group 1 - The event aims to promote academic exchange and innovation collaboration among global youth AI researchers, responding to the theme of the World Artificial Intelligence Conference [3] - The initiative seeks to provide a high-standard academic exchange platform for young scholars and technology developers, facilitating the collision of academic ideas and the transformation and dissemination of research results [3] Group 2 - The call for submissions focuses on cutting-edge explorations in the field of artificial intelligence, covering areas such as large models, generative AI, computer vision, reinforcement learning, AI ethics, and interdisciplinary applications [4][5][6][7][8] - Submissions can take the form of academic posters or preprint papers, with specific guidelines for each format, including visual presentation requirements and structural expectations for research papers [8][9] Group 3 - Selected works will be showcased at the World Artificial Intelligence Conference, with opportunities for authors to present their findings and engage with industry leaders [10] - Authors may apply for direct recommendations to top international journals, including Nature Machine Intelligence, with expedited review processes for recommended papers [10][14] Group 4 - Submission materials must include a title, author information, and either a poster design file or a full preprint paper, along with a brief research highlight summary [11] - The submission deadline is July 10, 2025, with notifications of review results by July 15, 2025, and the conference scheduled for July 27, 2025, in Shanghai [12]

OpenAI 研究员 Noam Brown：Mid-training 是新的 pre-training

海外独角兽· 2025-07-02 11:03

两个编译：haozhen 编辑：siqi 海外独角兽原创编译转载请注明去年以来，随着 OpenAI 在 o1 模型中提出 RL 叙事，以及 DeepSeek 发布的 R1 模型解开了 RL 谜题，AI 行业进入了新范式，智能的下半场也真正开启。如果说过去 LLM 主要依赖于模式匹配与数据记忆，如今，推理能力的兴起让模型能力从表层关联跃升到复杂认知。推理不仅仅是参数数量或训练数据的增加，而是能充分利用算力进行深度探索。因此，推理能力既是涌现智能的重要催化剂，也是未来模型在科学发现、复杂决策与 multi-agent 协作中的关键。本篇内容是 OpenAI 研究员 Noam Brown 的最新播客。Noam 是全球最顶尖的推理研究员之一，他最知名的两个项目分别是在德扑中击败顶尖人类玩家的 AI 系统 Libratus 和 Pluribus，2022 年他又开发了首个在复杂多人策略游戏 Diplomacy 中达到人类水平的 AI，名为 Cicero。这次播客中，他详细分享了自己在 scaling test time compute 上的前沿观点： • 推理（reasoning）是模型涌现 ...