Workflow
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
量子位·2025-05-14 06:07

All-Angles Bench 团队 投稿至 凹非寺 量子位 | 公众号 QbitAI 多视图理解推理 有新的评判标准了! 什么是多视图理解?也就是从不同视角整合视觉信息进而实现理解决策。 想象一下,机器人在复杂环境中执行任务,这就需要根据多个摄像头的画面准确判断物体位置、距离和运动方向,这就依赖于强大的多视图理 解能力。 但过去,由于评估多视图推理能力的基准测试稀缺,这一领域的研究进展相对缓慢。 来自UC伯克利、忆生科技、香港大学、纽约大学、加州大学戴维斯分校、牛津大学等多家机构的研究者联合提出了 All-Angles Bench ,旨 在全面评估MLLMs的多视图理解能力。它涵盖了90个真实场景下,超过2100组人工标注的多视图问答对。 其评测数据集以及评测代码现已全部开源。 他们对27个领先的多模态大语言模型进行基准测试,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。 结果显示,多模态大语言模型与人类水平之间存在显著差距 ,并进一步发现模态大语言模型存在两种主要的缺陷模式:(1)在遮挡情况下跨 视图对应能力较弱;(2)对粗略相机位姿的估计能力较差。 具体来 ...