传媒互联网行业周报:DeepSeek降低模型成本,Kimi+进一步扩宽应用场景
Tai Ping Yang·2024-05-13 07:00
[Table_Mess2a0g2e4]- 05- 12 行业周 报 行 看好/维持 业 传媒互联网 研 究 [Table_Title] 传媒互联网 报 告 DeepSeek 降低模型成本,Kimi+进一步扩宽应用场景 [Table_Summary] ◼ 走势对比 报告摘要 ➢ DeepSeek-V2发布,模型成本显著下降 太 DeepSeek 发布开源 MoE 大模型 DeepSeek-V2,该模型能力突出,中 平 文和英文综合能力评测得分分别接近于 GPT-4-Turbo 和 LLaMA3- 洋 70B。值得注意的是,DeepSeek-V2 显著降低模型训练和推理成本。 证 1)训练成本方面,其稀疏MoE架构进行了共享专家等改进,相比V1 的稠密模型,节约了 42.5%的训练成本。2)推理成本方面,通过创 券 新性地运用先进的注意力机制MLA,压缩token生成中对key value 股 的缓存,极大降低了推理成本。从API的定价来看,DeepSeek-V2 API 份 每百万tokens输入1元、输出2元,显著低于海内外主流大模型, 有 如GPT-4-Turbo每百万tokens输入72元、输出217元, ...