MOE架构性价比凸显,维持看好国产模型及应用突破传媒张良卫团队
东吴证券国际经纪·2024-05-09 13:04
1)国产MOE模型在能力上持续追赶海外最头部模型。 深度求索(DeepSeek)发布最新国产大模型DeepSeek-V2,DeepSeek-V2基于2千亿MoE模型底座。 DeepSeek-V2 模型采用了8.1 trillion tokens高质量的语料库进行了预训练,在进行全面的预训练之后 进行了监督微调 (SFT) 和强化学习 (RL) 过程。在目前大模型主流榜单中,DeepSeek-V2均表现出色: 中文综合能力开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队; 英文综合能力与最强的开源模型 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral8x22B; 知识、数学、推理、编程等榜单结果位居前列; 开源模型支持128K上下文,对话官网/API 支持32K上下文。 2)由于采用了创新性的模型架构,推理成本在所有主流大模型中具有明显竞争力。 根据DeepSeek官网,V2版本提供了极具竞争力的API价格,分别位1元/百万输入Tokens及2元/百万输 出Tokens。 之所以成本更低,在于DeepSeek-V2采用了创新架构,保证经济训练 ...