FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间
机器之心·2025-11-14 01:33
该项工作的作者分别是来自香港中文大学的博士生 施柯煊,来自 西湖大学的助理教授 温研东,来自 香港中文大学的计算机系助理教授 刘威杨。 当前,基于通用基础模型进行任务特定微调已成为主流范式。这种范式虽然能够在各个特定任务上获得高性能的专家模型,但也带来新的挑战:如何将这些 特定微调得到的专家模型的能力有效整合到单一模型中并且无需访问原始训练数据,实现多任务协通,同时最小化性能损失? 针对这一问题, 研究者们 提出了 FDA(Model Merging with Functional Dual Anchors) ——一个全新的模型融合框架。与传统的参数空间操作不同, FDA 将专家模型的参数知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合。 FDA 的关键思想是:将参数中所蕴藏的任务知识,用输入空间的一组对偶的合成输入点(Dual Anchors)来表示;使用合成输入点所诱导的联合梯度,更 新模型,以整合多任务知识。 具体来说,任务知识在参数空间上可以体现为模型最终的参数与初始参数的差异向量(任务向量,Task Vector)。FDA 为每一个专家模型,构造一组 Dual Ancho ...