GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

General-Level团队投稿量子位 | 公众号 QbitAI 正因如此，在AI竞赛进入"下半场"之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。近期录用于ICML'25 (Spotlight)的论文《On Path to Multimodal Generalist: General-Level and General-Bench》提出了一套全新的评测框架General-Level 和配套的数据集General-Bench ，为这一议题带来了奠基性的解答和突破。该评测框架已落地于社区：上述论文的项目团队构建了涵盖700多个任务、覆盖5大常见模态、29个领域、多达32万+测试数据的超大规模评测基准和业界最完善的多模态通才模型排行榜 Leaderboard ，为公平、公正、全面地比较不同多模态通才大模型提供了基础设施。 General-Level评估算法：五级段位体系与协同效应 General-Level评测框架引入了一个五级段位体系，类似"段位晋级"的方式来衡量多模态模型的通才能力。 General-Level评估的核心在于 ...