跨模态任务

Search documents
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
3 6 Ke· 2025-07-23 02:45
本系列的第一部分回顾了大规模视频语言预训练的进展、应用、数据集和技术。该任务使用弱字幕和视频进行表征学习。预 训练和微调是深度学习中的一种标准学习范式,用于在大型数据集上对模型进行预训练,然后在较小的数据集上针对特定任 务进行微调。这消除了为不同任务训练新模型的需要,并降低了计算成本。 预训练通常使用自监督学习在 ImageNet 等大型数据集上进行,而无监督学习在自然语言处理 (NLP) 和计算机视觉 (CV) 领域 也表现出色。预训练模型的权重随后会在较小的数据集上进行微调,以实现特定任务的学习目标。 随着视频应用的发展,大量视频被上传到网上。因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。 1. 简介 视频语言预训练利用大规模视频文本数据进行自监督/无监督学习,以获得泛化表征。主要的代理任务包括掩码语言模型 (MLM)、掩码帧模型 (MFM)、语言重构 (LR)、视频语言匹配 (VLM)、句子排序模型 (SOM) 和帧排序模型 (FOM)。这些任务 分别侧重于语言预测、帧预测、句子生成、视频语言对齐、句子排序和 ...