Workflow
理想的VLA可以类比DeepSeek的MoE
理想TOP2·2025-06-08 04:24

本文经过认真思考,有任何不同意见都可在评论区留言,我都会回复的。 看待一个东西的角度有非常多种,当一个人说XX可以和XX类比时,一般是某一个角度有相似之处, 任意两个事物不太可能所有细节都可以类比。 理想VLA和DeepSeek MoE( 混合专家 )类比点: VLA和MoE本身的想法都有其他人先提过了,都是首次完整落地到另一个大领域,在其中有大量创 新,并取得良好结果。 理想暂时还没有自己的MLA( 多头潜在注意力机制 ),之后会有的。DeepSeek的MLA创新尺度是这 个方法的理念之前没人提过。 DeepSeek之前的MoE,专家数量一般只有8-16个,单个专家需处理多种类型知识,专业化程度低,不 同专家重复学习相同公共知识,参数利用率低。 DeepSeek的MoE核心通过 Fine-Grained Expert Segmentation( 细粒度专家划分)和 Shared Expert Isolation( 共享专家隔离),处理方式和原来的MoE已经非常不同了。 前者将单个专家拆分为更小的子专家(原专家隐藏层维度缩小至 1/4,数量增至4倍),让激活专家 组合灵活性显著提升(从120种组合的数量级增至 ...