Workflow
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
KUAISHOUKUAISHOU(HK:01024) 量子位·2025-09-05 10:56

相比此前的预览版本,Keye-VL 1.5的时序定位能力进一步升级,并且支持跨模态推理。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 能看懂视频并进行跨模态推理的大模型Keye-VL 1.5,快手开源了。 还创新性地提出Slow-Fast双路编码机制,给模型带来了128k的超长上下文窗口,而且速度与细节兼顾。 成绩上,不仅在Video-MME短视频基准斩获73.0的高分,还在通用、视频和推理场景的大量Benchmark当中领跑同级模型。 视频元素0.1秒级定位,还支持推理 要说Keye-VL-1.5最大的亮点,研究团队认为主要有三个,也就是开头提到的128k上下文、突出的短视频理解能力、 以及更强的Reasoning 能力。 在视频理解场景当中,这三项能力能够同时得以展现。 首先是时序信息理解,Keye-VL-1.5能够准确判断特定物品在视频中出现的时间点,而且精确到0.1秒级。 比如在这段26秒带货视频片段中,介绍了一款充电宝,其中一个环节是将其装进包包,以体现便于携带。 Keye-VL-1.5看完这段视频后,准确回答出了其中包包出现的时间——22.3-23.8秒。 而其他模型或者时间只精确到秒 ...