5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
量子位·2025-05-27 01:07
FairyR1团队 投稿 量子位 | 公众号 QbitAI 只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队 近期发布了其在高效大型语言模型研究方向的一项新成果—— FairyR1-32B模型 。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。 在模型结构方面,研究团队尝试训练两个领域(数学和代码)的专业模型进行合并,旨在进 一步优化流程和资源消耗。 这两个专业模型在一致的训练参数下(例如相同的学习率和批次大小)独立训练约5个周期 后,利用 AcreeFusion工具 进行了合并。 实验结果 研究探索了在参数量大幅减少的情况下,模型在特定任务上实现与更大模型相当甚至更优性 能的可能性。 以上模型已在Huggingface开源 。 模型地址:https://huggingface.co/PKU-DS-LAB/FairyR1-32B FairyR1-32B模型解析 FairyR1-32B模型是在团队前期TinyR1工作基础上进行的进一步探索,沿用了"分合蒸馏"的 研究思路,提出了多种改进方法,包括 自我合并 、 多教师交叉 ...