视觉指令微调
Search documents
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 08:31
本文第一作者是二年级博士生闫熠辰,主要研究方向是多模态大模型的数据质量管理;通讯作者是李环研究员,主要研究方向包括人工智能数据准备、大模型高 效推理与部署、时空大数据与模型轻量化等。 03 研究背景与动机 (Motivation) 01 省流版:一张图看懂 COIDO 在深入技术细节之前,我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案: 正如钟离在漫画中所言,面对海量视觉指令数据的选择任务,传统方法需要遍历全部数据才能进行筛选造成大量「 磨损」(高昂计算成本)。同时在面对数据重 要性和多样性问题时,传统方法往往顾此失彼。而 COIDO 通过「 耦合优化」的新契约,实现了以简驭繁的效果。 02 论文速览 多模态大语言模型(MLLM)的能力在很大程度上依赖于高质量的视觉指令微调(Visual Instruction Tuning)。然而,随着数据集规模的爆炸式增长(如 LLaVA- 665K),在全量数据上进行微调带来了巨大的计算开销和冗余 。 现有的数据筛选方法虽然旨在选取高质量子集,但普遍存在两个关键痛点: ...