无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
机器之心·2025-12-01 04:06

Title:VisPlay: Self-Evolving Vision-Language Models from Images 实验证明,VisPlay 在 Qwen2.5-VL 和 MiMo-VL 等主流模型上实现了持续的性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著,展示了一 条可扩展、低成本的多模态智能进化新路径。 在 Vision-Language Model 领域,提升其复杂推理能力通常依赖于耗费巨大的人工标注数据或启发式奖励。这不仅成本高昂,且难以规模化。 最新研究 VisPlay 首次提出了一个自进化强化学习框架,使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。 VisPlay 将基础 VLM 分解为「提问者」和「推理者」两大角色,通过迭代的自我进化机制协同进化,并结合 GRPO 算法和创新的多样性/难度奖励,平衡 了问题的复杂度和答案的质量。 引言: Paper: https://arxiv.org/abs/2511.15661 Github: https://github.com/bruno686/VisPlay VLM 推理能力的「数据困境」 近年来,Visio ...