MMK12

Search documents
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 04:45
刘宗凯 投稿 量子位 | 公众号 QbitAI 具体的,相较基础模型QwenVL2.5-7B,基于CPGD和15k多模态数学数据MMK12训练的模型MM-Eureka-CPGD-7B在MMK12测试集 (包 括数学,以及训练数据分布外领域的物理、化学、生物) 上平均提升21.8%,在MathVista和MathVision等训练数据分布外领域上也分别提 升8.5%与11.4%,展现了优异的泛化能力。 模型规模扩展到MM-Eureka-CPGD-32B上则进一步在MMK12测试集上超越了o1,值得注意的是,尽管MM-Eureka-CPGD-32B只在数学数 据集上进行RL训练, 但在物理、化学和生物等学科均超过了o1 。 △ 不同模型在MMK12测试集中不同学科上的表现 今年2月,他们推出MM-Eureka系列是最早在多模态领域利用大规模Rule-based RL复现DeepSeek-R1关键能力(例如Visual aha- moment、稳定的回答长度增长)的工作之一,并将模型、代码、高质量多模态数据集MMK12、过程奖励模型MM-PRM全部开源,发布三个 月以来获得了学术界和开源社区广泛关注——模型已被下载 ...