小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
理想TOP2·2025-06-18 11:43
以下文章来源于刘聪NLP ,作者刘聪NLP 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 端午节前,分享了一篇小米的开源多模态模型的文章, 啥?小米又开源了多模态理解大模型 。 当时只解读了论文,没有实测。 今天来填坑。 当然,看了这篇论文的,都知道,MiMo-VL-7B模型把一众多模态理解模型按在地上暴捶,尤其是 Qwen2.5-VL,哈哈哈哈。 当然这里没有拉仇恨的意思。 他们自己人也说是站在巨人的肩膀上, 巨人就是Qwen ,虽然Qwen-VL被锤了, 但是Qwen的含金 量依然存在 ,毕竟ViT部分是直接用Qwen2.5-VL的ViT初始化的。 话不多说,开始实测,因为MiMo-VL-7B有两个SFT和RL两个版本,并且均可以使用think或no- think,都测试,与Qwen2.5-VL-7B进行对比。 懒人不爱看版: 结论可能会因为测试样例不足、不同,而不一样, 欢迎评论区讨论 ! MiMo-VL-7B个人测试下来SFT和RL相差不大; MiMo- ...