统一强化推理
Search documents
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型
机器之心· 2025-12-29 04:44
在这个工作中,我们研究了分割大模型领域的一大一小两个关键问题,大问题就是老生常谈的 "泛化能力",传统分割大模型对未见过的提示和领域的泛化 能力往往有限;小问题则是隐藏的 "信息瓶颈",此前的分割大模型从 "大脑思考"(MLLM)到 "分割解码"(SAM)之间往往只通过单一的分割 Token 传 递信息,存在隐形的 "信息输送瓶颈"。 文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的 战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正面临着根本性的瓶颈。这些方法本质上是静态的模式匹配, 虽然在特定数据集上表现优异,但其泛化能力往往受限,形成了一个难以逾越的 "能力天花板"。尤其是在处理需要多步、复杂推理的未知指令时,性能会 显著下降,其根源在于 SFT 方法在训练中忽略了动态的、显式的推理过程。 为了 shatter 这一能力天花板,我们引入了 LE ...