多模态大语言模型

Search documents
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
量子位· 2025-03-27 04:16
Vamba团队 投稿 量子位 | 公众号 QbitAI Mamba混合架构视频模型来了,不再对视频token进行压缩—— 而是通过改进模型架构设计的方式提升模型在训练及推理预填充阶段处理视频token的效率。 滑铁卢大学陈文虎团队与多伦多大学、零一万物、向量学院以及M-A-P的研究人员提出了一种新的Mamba-Transformer混合模型Vamba。 通过大量实验验证,研究团队发现Vamba在同等硬件条件下可处理的视频帧数较传统Transformer架构提升4倍,训练内存消耗降低50%以 上,并且可实现单步训练速度的翻倍。 同时,该方法完整保留了原始视频的时空特征,避免传统方法因降采样或池化操作导致的关键动作或场景的信息丢失。 在多个长视频的评价标准上,Vamba保持了高准确率和出色的性能,尤其在LVBench长视频理解基准上相较先前的高效长视频理解模型达到 了约4.3%的性能提升。团队现已开源Vamba模型的代码、模型权重以及训练、推理脚本供研究社区进一步探索与应用。 核心方法 目前流行的多模态大语言模型多使用Transformer作为模型的基本结构,其中的因果注意力机制相对于输入的token序列长度存在 ...
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 05:24
量子位 | 公众号 QbitAI 挑战多图数学推理新基准,大模型直接全军覆没?! 事情是这样的。 近日,中国科学院自动化研究所推出 多图数学推理全新基准MV-MATH (该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理 数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。 结果评估下来发现,GPT-4o仅得分32.1,类o1模型QvQ得分29.3,所有模型均不及格。 MV-MATH团队 投稿 | Statistics | Number | | --- | --- | | Total Questions | 2009 | | * multiple-choice questions | 1109 | | *Free-form questions | 900 | | -one-step questions | 800 | | -multi-step questions | 100 | | Questions in the testmini set | 200 | | Difficulties (Easy: Medium: Hard) | 27%:48%:25% | | T ...
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 03:35
基础模型(FM)以其强大的生成能力,彻底改变了包括计算机视觉在内的多个领域。在此基础上,X领域特定的基础模型(XFM),如自动 驾驶FM、医疗FM等,通过在精选数据集上的训练和针对任务的架构修改,进一步提升了各自领域内的专业任务性能。然而,随着XFM的广泛 应用,其对抗性攻击的脆弱性也逐渐暴露。这些攻击可能导致模型对输入图像或提示进行错误分类,甚至生成对手期望的输出,对自动驾驶、 医疗诊断等安全关键型应用构成重大威胁。 论文征稿 本次研讨会诚邀与以下主题相关(但不限于)的投稿,并设立最佳论文奖(Best Workshop Paper): advml团队 投稿 量子位 | 公众号 QbitAI IEEE/CVF国际计算机视觉与模式识别会议(CVPR),作为人工智能领域最具学术影响力的顶级会议之一,将于2025年6月11日至6月15日 在美国田纳西州隆重举行。 在此盛会中,第五届对抗机器学习Workshop将由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办。本次 Workshop以 基础模型+X 为主题,旨在深入探讨基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战。 主题聚焦:基 ...