Workflow
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
量子位·2025-05-27 12:31

鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 仅需一个强化学习 (RL) 框架,就能实现 视觉任务大统一 ? 现有RL对推理和感知任务只能二选一,但"大模型六小强"之一 MiniMax 表示:我全都要! 最新开源 V-Triune (视觉三重统一强化学习系统) 框架,使VLM 首次 能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。 通过 三层组件设计 和 基于动态交并比 (IoU) 的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。 甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的 Orsta (One RL to See Them All) 模型系列 (7B至32B) ,在 MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。 值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO 闫俊杰 也参与了这项研究。 目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。 那话不多说,咱们直接上细节。 推理感知"两手抓" 视觉任务可以分为 推理 和 感知 两类,在当前,RL研究主要集中于数 ...