Workflow
多阶段强化学习
icon
Search documents
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
量子位· 2025-11-22 03:07
西风 发自 凹非寺 量子位 | 公众号 QbitAI 首个拿下 国际物理 奥林匹克竞赛IP hO 2025 理论考试金牌的开源模型, 出自国产 。 上海人工智能实验室团队推出新模型家族, 代号 P1 。 在IPhO 2025理论考试中,P1-235B-A22B 取 得21.2/ 30分 , 成为首个达到该金牌线的开源模型 ,仅次于Gemini-2.5-Pro与GPT-5。 不仅如此, 引入PhysicsMinions智能体框架后,P1成绩进一步提升 。 在团队构建的包含最新13项顶级物理竞赛的HiPhO基准上,P1-235B-A22B 平均成绩从35.9提高到3 8.4 ,在所有33个顶流模型中排名第一 ,超过Gemini-2.5-Pro (37.7) 和GPT-5 (37.4) 。 并且,在中国物理奥林匹克CPhO 2025人工评分中,P1-235B- A22B 获得 227/320分 ,显著超过当届全国金牌第一名人类选手 (199分) 。 开源方面团队也做得很彻底,从模型、算法到评测集、再到智能体框架,都将全链路开源。 下面具体来看P1究竟是如何做到的。 多阶段强化学习+智能体框架 为让模型学习类似人类顶 ...
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 03:43
但一个朴素而尖锐的问题始终横在面前:当视觉信息变得极其繁复、结构密集,模型究竟能不能「看懂图」?比如以高分辨率地铁图为代表的真实场景,既要求 精细的视觉感知,又要求跨线路、跨站点的空间推理。 来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题:在高分辨率地铁图等真实场景下,即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出 现「看错线」「漏站」「重复路线」等推理幻觉。 本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 团队进一步发现,在高分辨率、信息极其密集的地铁图上,仅依靠最终答案给出成败信号的强化学习,很容易陷入奖励极度稀疏的困境:多数输出几乎得不到任 何正反馈,少数「偶然对」的样本又会造成高方差梯度,训练既慢又不稳,这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。 为此,该团队进一步提出 RewardMap:一个围绕真实 map reasoning ...