Workflow
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式
量子位·2025-05-16 01:24

General-Level团队 投稿 量子位 | 公众号 QbitAI 正因如此,在AI竞赛进入"下半场"之际(由最近的OpenAI研究员姚顺雨所引发的共识观点), 设计科学的评估机制俨然成为决定胜负的核心 关键 。 近期录用于ICML'25 (Spotlight)的论文《On Path to Multimodal Generalist: General-Level and General-Bench》提出了 一套全新的评 测框架General-Level 和 配套的数据集General-Bench ,为这一议题带来了奠基性的解答和突破。 该评测框架已落地于社区:上述论文的项目团队构建了涵盖700多个任务、覆盖5大常见模态、29个领域、多达32万+测试数据的超大规模评 测基准和业界最完善的多模态通才模型排行榜 Leaderboard ,为公平、公正、全面地比较不同多模态通才大模型提供了基础设施。 General-Level评估算法:五级段位体系与协同效应 General-Level评测框架引入了一个 五级段位体系 ,类似"段位晋级"的方式来衡量多模态模型的通才能力。 General-Level评估的核心在于 ...