多模态微调

Search documents
充分激发模态协作,MokA量身打造MLLM微调新范式
机器之心· 2025-06-29 02:21
本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。作者来自于中国人民大学和上海人工 智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。然而 ,当在多模态下游任务进行微调时,当前主流的多模态微调方法大 多直接沿用了在纯文本大语言模型(LLMs)上发展出的微调策略,比如 LoRA。但这种「照搬」 策略,真的适用于多模态模型吗? 多基座、多场景下均实现性能提升 论文标题:MokA: Multimodal Low-Rank Adaptation for MLLMs 论文链接:https://arxiv.org/abs/2506.05191 项目主页:https://gewu-lab.github.io/MokA 来自中国人民大学高瓴人工智能学院 GeWu-Lab 实验室、上海人工智能实验室的研究团队在最新论文中给出了一种全新的思考方式。他们指出:当下 MLLMs 微调 方案大多简单的将单模态策略迁移至多模态场景,未结合多模态学习特性进行深入思考。事实 上,在多模态场景中,单模态信息的独立建模(Unimodal Ad ...