DeepSeek MoE

Search documents
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 04:24
本文经过认真思考,有任何不同意见都可在评论区留言,我都会回复的。 看待一个东西的角度有非常多种,当一个人说XX可以和XX类比时,一般是某一个角度有相似之处, 任意两个事物不太可能所有细节都可以类比。 理想VLA和DeepSeek MoE( 混合专家 )类比点: VLA和MoE本身的想法都有其他人先提过了,都是首次完整落地到另一个大领域,在其中有大量创 新,并取得良好结果。 理想暂时还没有自己的MLA( 多头潜在注意力机制 ),之后会有的。DeepSeek的MLA创新尺度是这 个方法的理念之前没人提过。 DeepSeek之前的MoE,专家数量一般只有8-16个,单个专家需处理多种类型知识,专业化程度低,不 同专家重复学习相同公共知识,参数利用率低。 DeepSeek的MoE核心通过 Fine-Grained Expert Segmentation( 细粒度专家划分)和 Shared Expert Isolation( 共享专家隔离),处理方式和原来的MoE已经非常不同了。 前者将单个专家拆分为更小的子专家(原专家隐藏层维度缩小至 1/4,数量增至4倍),让激活专家 组合灵活性显著提升(从120种组合的数量级增至 ...
AI原生浪潮冲击下,互联网大厂的组织如何进化?
3 6 Ke· 2025-04-11 10:20
编者按 AI原生组织的崛起是一场技术与组织的双重革命。对于传统互联网大厂而言,这场竞速不仅是技术能力的较 量,更是组织形态、文化基因与人才战略的全面对决。 在AI浪潮的冲击下,传统科技互联网巨头和新兴的AI原生组织(AI Native)正展开一场前所未有的竞速。 与此同时,Midjourney凭借数百万量级的日生成能力,在数字艺术领域构建起"提示词即生产力"的新范式。"一项技术最 大的限制不是规模、成本或运行速度,而是我们如何与它互动。"Midjourney创始人大卫·霍尔茨(David Holz)在接受采 访时,多次提到在社区产品中构建Midjourney是其成功的关键之一。 DeepSeek现象正引发传统科技互联网巨头的集体焦虑,这场由AI Native组织发起的降维打击,暴露出大厂在决策机制、 资源调配与注意力管理上的深层困境。与2023年OpenAI带来的冲击不同,此次挑战更具本土化特征——即便坐拥百倍 于DeepSeek的研发资源,大厂仍难复现其"用算法榨干最后一滴算力"的技术锐度。 由此可见,这场竞速不仅是技术与应用的较量,更是组织形态、文化基因与人才战略的全面对决。摆在传统互联网科技 巨头面前的 ...
快看!这就是DeepSeek背后的公司
梧桐树下V· 2025-01-29 03:16
| © 企查查 企业主页 | | --- | | 杭州深度求索人工智能基础技术研 存续 | | 究有限公司 | | 21万+ 91330105MACPN4X08Y ¥ 发票抬头 | | 简介:DeepSeek成立于2023年,是一家通用人工智能模... 展开 | | 法定代表人 注册资本 成立日期 | | 製作 1000万元 2023-07-17 | | 企查查行业 规模 品丁 2023年 | | 信息系统集成服务 微型 XS 4人 | | & 0571-85377238 | | 9 浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢120 | | 1室 | | 宁波程图个业管理 | | 梁文章 服 咨询合伙 ... 大股东 | | 东 | | 持股比例 99.00% 持股比例 1.00% 2 | | 投资企业2家 关联企业15家 2 | | 裴活 王南军 | | 퀘 + 등 执行董事兼. 监事 | | 2 关联企业3家 关联企业2家 | 文/梧桐晓驴 DeepSeek爆火,晓驴好奇地去查了一下开发、运营DeepSeek的公司情况。 "企查查"显示:杭州深度求索人工智能基础技术研究有限公司,英文名Hangz ...