聊聊小米开源的MiMo-V2-Flash,这次,为推理而生。
周末加更一篇,我还是觉得,小米前两天开源的那个模型,值得单独来聊一聊。 当天晚上其实就打算写了,结果被OpenAI截胡了,这一拖,就拖到了今天。 就是前两天深夜,小米搞了一个大的。 没有任何预兆的,直接开源了一个大模型, MiMo-V2-Flash。 今天看,又涨了将近2倍,已经来到了第六了,这个涨幅还是挺恐怖的。 而且还有一个非常有意思的是,那天,也是雷总的生日。 这绝对不是巧合(狗头保命)。 这次, MiMo-V2-Flash 发布即开源,还附带了技术报告。 说真的,这个技术报告,真的究极详细了。 说实话,十年米粉看到以后,还是有点激动的。 小米,作为硬件厂商的代表,终于出手了。 成绩也不错,在O penRouter上的调用量排名上,一路上涨。 | 目参 | | | | | --- | --- | --- | --- | | l 引导 | | | 4 | | 2 | | MiMo-V2-Flash 模型架构 | 5 | | 2.1 | 整体架构 | | 5 | | 2.2 | | 混合滑动窗口注意力架构 | 6 | | | 2.2.1 | 模型架构实验 | 7 | | | 2.2.2 | 总结与讨论 | ...