Workflow
VisPlay框架
icon
Search documents
VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
具身智能之心· 2025-12-02 09:30
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 最新研究 VisPlay 首次提出了一个自进化强化学习框架,使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。 VisPlay 将基础 VLM 分解为「提问者」和「推理者」两大角色,通过迭代的自我进化机制协同进化,并结合 GRPO 算法和创新的多样性/难度奖励,平衡 了问题的复杂度和答案的质量。 Title:VisPlay: Self-Evolving Vision-Language Models from Images 实验证明,VisPlay 在 Qwen2.5-VL 和 MiMo-VL 等主流模型上实现了持续的性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著,展示了一 条可扩展、低成本的多模态智能进化新路径。 引言: >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 在 Vision-Language Model 领域,提升其复杂推理能力通常依赖于耗费巨大的人工标注数据或启发式奖励。这不仅成本高昂,且难以规模化。 ...