基于强化学习的视觉规划(VPRL)

Search documents
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
量子位· 2025-05-21 04:01
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 不再依赖语言,仅凭 图像 就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效 率又低、信息也可能会丢失,那难道就没有一个可以跳过 "语言中介" 的方法吗? 目前相关代码已开源,可点击文末链接获取。 以下是有关VPRL的更多细节。 VPRL更准确、更有效 于是来自剑桥、伦敦大学学院和谷歌的研究团队推出了 首次 纯粹依靠图像进行推理的新范式—— 基于强化学习的视觉规划 (VPRL) 。 新框架利用 GRPO 对大型视觉模型进行后训练,在多个代表性视觉导航任务中的性能表现都远超基于文本的推理方法。 准确率高达80%,性能超文本推理至少40%,首次验证了 视觉规划显著优于文本规划 ,为直觉式图像推理任务开辟了新方向。 现有的视觉推理基准都是将视觉信息映射到文本领域进行处理,整个推理过程都由语言模型完成。 纯视觉规划则是让模型 直接利用图像序列 ,没有中间商"赚差价",推理效率直线UP。 由此团队直接引入一个基于强化学习的视觉规划训练框架V ...