大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
量子位·2025-06-21 06:07
AntResearchNLP团队 投稿 量子位 | 公众号 QbitAI "边看边画,边画边想",让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。 来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源 ViLaSR-7B 。 它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。 在李飞飞等知名学者提出的VSI-Bench上更是达到了与Gemini-1.5-Pro相当的45.4%水平,全面超越现有方法。 | Method Reasoning | Tool | | | Image | Video | | Mutli-view | | --- | --- | --- | --- | --- | --- | --- | --- | | SpatialEval-Real | | | MAZE | | VSI-Bench | SPAR-Bench | MMSI-Bench | | Proprietary LVLMs | | | | | | | | | GPT-40 | × | X | 48.8 | 60.7 | 34.01 | 33.6 | 30.3** | | GPT- ...