多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

MMSearch-R1团队投稿量子位 | 公众号 QbitAI 多模态模型学会"按需搜索"！字节&NTU最新研究，优化多模态模型搜索策略 —— 通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。经过训练的模型能够自主判断搜索时机、搜索内容并处理搜索结果，在真实互联网环境中执行多轮按需搜索。实验结果表明，在知识密集型视觉问答任务（Visual Question Answering, VQA）中，MMSearch-R1系统展现出显著优势：其性能不仅超越同规模模型在传统检索增强生成（RAG）工作流下的性能，更在减少约30%搜索次数的前提下，达到了更大规模规模模型做传统RAG的性能水平。下文将详细解析该研究的研究方法以及实验发现。具体怎么做到的？近年来，随着视觉-语言训练数据集在规模和质量上的双重提升，多模态大模型（Large Multimodal Models, LMMs）在跨模态理解任务中展现出卓越的性能，其文本与视觉知识的对齐能力显著增强。然而，现实世界的信息具有高度动态性和复杂性，单 ...