快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心·2025-07-07 12:17
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 快手团队发布8B Kwai Keye-VL 尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在静态图像处理方面展现出卓越的能 力,但在理解动态性强、信息密度高的短视频内容方面仍存在明显不足——而短视频正是当今数字生态中 的主流媒介。为弥补这一差距,快手团推推出了 Kwai Keye-VL ,这是一款参数规模达 8B的多模态基础模 型,专为实现领先的短视频理解能力而设计,同时保持强大的通用视觉-语言处理能力。 Keye-VL 的构建基于两大核心支柱:一是包含超过 6000 亿 token 的大规模高质量数据集,其中以视频数据 为核心;二是创新性的训练策略。该训练策略包括一个四阶段的预训练流程,以实现稳固的视觉与语言对 齐;随后是一个精心设计的两阶段后训练过程。第一个后训练阶段旨在增强模型的基础能力,如指令跟随 等;第二阶段则专注于激发其高级推理能力。 在第二阶段中,我们的关键创新之一是一种五模式"冷启动"数据混合策略,包括"思考型"、"非思考 型"、"自动思考型"、"图文思 ...