AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了
机器之心·2025-12-15 10:00

为此, 合肥工业大学研究团队携手清华大学研究团队推出了首个面向视频大语言模型的综合可信度评测基准 Trust-videoLLMs。 该工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 对 5 款商业模型和 18 款开源模型进行了全面评估。评测涵盖真实性、鲁棒性、安全性、公平性、隐私五 大维度,包含 30 项精心设计的任务。同时,团队还提供了一个专门用于研究视频大语言模型安全可信能力的工具箱,该工具箱采用统一接口和模块化设计,便于 模型交互和任务执行。 近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁 棒性和隐私保护等方面仍面临严峻挑战。 论文地址:https://arxiv.org/pdf/2506.12336 项目主页:https://github.com/wangyouze/Trust-videoLLMs 评测什么? Trust-videoLLMs 构建了一个系统化、多层次、可扩展的评测体系,包含五个核心维度: 真实性 (Truthfulness): 视频描述、时序理解、事件推理、 ...